英语原文共 66 页,剩余内容已隐藏,支付完成后下载完整资料
第十三章 线性因子模型
许多深度学习的研究前沿涉及到了构建输入的概率模型 pmodel(x)。原则上说, 给定任何其他变量的情况下,这样的模型可以使用概率推断来预测其环境中的任何 变量。许多这样的模型还具有潜变量 h,其中 pmodel(x) = Ehpmodel(x|h)。这些潜变 量提供了表示数据的另一种方式。我们在深度前馈网络和循环网络中已经发现,基 于潜变量的分布式表示继承了表示学习的所有优点。 在本章中,我们描述了一些带有潜变量的最简单的概率模型:线性因子模 型 (linear factor model)。这些模型有时被用来构建混合块模型 (Hinton et al., 1995a; Ghahramani and Hinton, 1996; Roweis et al., 2002) 或者更大的深度概率模型 (Tang et al., 2012)。他们还展示了构建生成模型所需的许多基本方法,更先进的深层模型 也将在此基础上进一步扩展。 线性因子模型通过使用随机线性解码器函数来定义,该函数通过对 h 的线性变 换以及添加噪声来生成 x。 这些模型很有趣,因为它们使得我们能够发现一些拥有简单联合分布的解释性 因子。线性解码器的简单性使得它们成为了最早被广泛研究的对潜变量建模的模型。 线性因子模型描述如下的数据生成过程。首先,我们从一个分布中抽取解释性 因子 h
其中 p(h) 是一个因子分布,满足 p(h) =prod;i p(hi),所以很容易从中采样。接下来, 在给定因子的情况下,我们对实值的可观察变量进行抽样
其中噪声通常是对角化的(在维度上是独立的)且服从高斯分布。在图13.1有具体说明。
图 13.1: 描述线性因子模型族的有向图模型,其中我们假设一个观察到的数据向量 x 是通过独立 的潜在因子 h 的线性组合再加上一定的噪音获得的。不同的模型,比如概率 PCA,因子分析或者 是ICA,都是选择了不同形式的噪音以及先验 p(h)。
13.1 概率 PCA 和因子分析
概率 PCA (probabilistic PCA),因子分析和其他线性因子模型是上述等式 (式(13.1), 式(13.2))的特殊情况,并且仅在对观测到 x 之前的噪声分布和潜变量 h 先验的选择上有所不同。 因子分析 (factor analysis) (Bartholomew, 1987; Basilevsky, 1994) 中,潜变量的 先验是一个方差为单位矩阵的高斯分布
同时,假定观察值 xi 在给定 h 的条件下是条件独立 (conditionally independent) 的。 具体的说,噪声可以被假设为是从对角协方差矩阵的高斯分布中抽出的,协方差矩 阵为 psi; = diag(sigma;2),其中 sigma;2 = [sigma;2 1,sigma;2 2,...,sigma;2 n]⊤ 表示一个向量,每个元素表示一个 变量的方差。 因此,潜变量的作用是捕获不同观测变量 xi 之间的依赖关系。实际上,可以容 易地看出 x 服从多维正态分布,并满足
为了将PCA引入到概率框架中,我们可以对因子分析模型进行轻微修改,使条 件方差 sigma;2 i 等于同一个值。在这种情况下,x 的协方差简化为 WW⊤ sigma;2I,这里的sigma;2 是一个标量。由此可以得到条件分布,如下:
或者等价于
其中 z sim;N(z;0,I) 是高斯噪音。之后Tipping and Bishop (1999) 提出了一种迭代 的EM算法来估计参数 W 和 sigma;2。
这个概率 PCA (probabilistic PCA) 模型利用了这样一种观察到的现象:除了 一些小且剩余的至多为 sigma;2 的重构误差 (reconstruction error) ,数据中的大多数变化 可以由潜变量 h 描述。通过Tipping and Bishop (1999) 的研究可以发现,当 sigma; minus;→ 0 的时候,概率 PCA退化为PCA。在这种情况下,给定 x 情况下 h 的条件期望等于 将 xminus;b 投影到 W 的 d 列的生成空间,与PCA一样。
当 sigma; minus;→ 0 时,概率 PCA所定义的密度函数在 W 的 d 维列生成空间周围非常尖 锐。这导致模型会为没有在一个超空间附近聚集的数据分配非常低的概率
13.2 独立分量分析
独立分量分析 (independent component analysis, ICA) 是最古老的表示学习算 法之一 (Herault and Ans, 1984; Jutten and Herault, 1991; Comon, 1994; Hyvauml;rinen, 1999; Hyvauml;rinen et al., 2001; Hinton et al., 2001; Teh et al., 2003)。它是一种建模线 性因子的方法,旨在将观察到的信号分离成许多潜在信号,这些潜在信号通过伸缩并叠加可以恢复成观察数据。这些信号是完全独立的,而不是仅仅彼此不相关。
许多不同的具体方法被称为ICA。与我们本书中描述的其他生成模型最相似 的ICA变种 (Pham et al., 1992) 训练了完全参数化的生成模型。潜在因子 h 的先验 p(h),必须由用户提前给出并固定。接着模型确定性地生成 x = Wh。我们可以通过 非线性变化(使用式(3.47))来确定 p(x)。然后通过一般的方法比如最大化似然进行学习。
这种方法的动机是,通过选择一个独立的 p(h),我们可以尽可能恢复接近独立 的潜在因子。这是一种常用的方法,它并不是用来捕捉高级别的抽象因果因子,而是恢复已经混合在一起的低级别信号。在该设置中,每个训练样本对应一个时刻,每 个 xi 是一个传感器对混合信号的观察值,并且每个 hi 是单个原始信号的一个估计。 例如,我们可能有 n 个人同时说话。如果我们具有放置在不同位置的 n 个不同的麦 克风,则ICA可以检测每个麦克风的音量变化,并且分离信号,使得每个 hi 仅包含 一个人清楚地说话。这通常用于脑电图的神经科学,一种用于记录源自大脑的电信 号的技术。放置在对象的头部上的许多电极传感器用于测量来自身体的许多电信号。 实验者通常仅对来自大脑的信号感兴趣,但是来自受试者的心脏和眼睛的信号强到 足以混淆在受试者的头皮处进行的测量。信号到达电极,并且混合在一起,因此为 了分离源于心脏与源于大脑的信号,并且将不同脑区域中的信号彼此分离ICA是必要的。
如前所述,ICA存在许多变种。一些版本在 x 的生成中添加一些噪声,而不是 使用确定性的解码器。大多数方法不使用最大似然准则,而是旨在使 h = Wminus;1x 的 元素彼此独立。许多准则能够达成这个目标。式(3.47)需要用到 W 的行列式,这可 能是昂贵且数值不稳定的操作。ICA的一些变种通过将 W 约束为正交来避免这个有 问题的操作。
ICA的所有变种要求 p(h) 是非高斯的。这是因为如果 p(h) 是具有高斯分量的 独立先验,则 W 是不可识别的。对于许多 W 值,我们可以在 p(x) 上获得相同的 分布。这与其他线性因子模型有很大的区别,例如概率 PCA和因子分析通常要求 p(h) 是高斯的,以便使模型上的许多操作具有闭式解。在用户明确指定分布的最大 似然方法中,一个典型的选择是使用 p(hi) = d dhi sigma;(hi)。这些非高斯分布的典型选择 在 0 附近具有比高斯分布更高的峰值,因此我们也可以看到独立分量分析经常在学 习稀疏特征时使用。
按照我们对生成模型这个术语的定义ICA的许多变种不是生成模型。在本书中, 生成模型可以直接表示 p(x),也可以认为是从 p(x) 中抽取样本。ICA的许多变种仅 知道如何在 x 和 h 之间变换,但没有任何表示 p(h) 的方式,因此也无法确定 p(x)。 例如,许多ICA变量旨在增加 h = Wminus;1x 的样本峰度,因为高峰度说明了 p(h) 是非 高斯的,但这是在没有显式表示 p(h) 的情况下完成的。这是为什么ICA更多用作分 离信号的分析工具,而不是用于生成数据或估计其密度。
正如PCA可以推广到第十四章中描述的非线性自编码器,ICA可以推广到非线 性生成模型,其中我们使用非线性函数 f 来生成观测数据。关于非线性ICA最初 的工作可以参考Hyvauml;rinen and Pajunen (1999),它和集成学习的成功结合可以参 见Roberts and Everson (2001); Lappalainen et al. (2000)。ICA的另一个非线性扩展是非线性独立分量估计 (nonlinear independent components estimation, NICE) 方 法 (Dinh et al., 2014),这个方法堆叠了一系列可逆变换(在编码器阶段),从而能 够高效地计算每个变换的Jacobian行列式。这使得我们能够精确地计算似然,并且 像ICA一样,NICE尝试将数据变换到具有可分解边缘分布的空间。由于非线性编码 器的使用2,这种方法更可能成功。因为编码器和一个与其(编码器)完美逆作用 的解码器相关联,所以可以直接从模型生成样本(通过首先从 p(h) 采样,然后使 用解码器)。
ICA的另一个推广是通过在组内鼓励统计依赖关系在组之间抑制依赖关系来学 习特征组。当相关单元的组被选为不重叠时,这被称为独立子空间分析 (independent subspace analysis)。还可以向每个隐藏单元分配空间坐标,并且空间上相邻的单元 组形成一定程度的重叠。这能够鼓励相邻的单元学习类似的特征。当应用于自然图 像时,这种地质 ICA (topographic ICA) 方法学习 Gabor 滤波器,从而使得相邻特 征具有相似的定向、位置或频率。在每个区域内出现类似 Gabor 函数的许多不同相 位存在抵消作用,使得在小区域上的池化产生了平移不变性。
13.3 慢特征分析
慢特征分析 (slow feature analysis, SFA) 是使用来自时间信号的信息来学习不 变特征的线性因子模型 (Wiskott and Sejnowski, 2002)。
慢特征分析的想法源于所谓的慢原则 (slowness principle)。其基本思想是,与场 景中起描述作用的单个量度相比,场景的重要特性通常变化得非常缓慢。例如,在计 算机视觉中,单个像素值可以非常快速地改变。如果斑马从左到右移动穿过图像并 且它的条纹穿过对应的像素时,该像素将迅速从黑色变为白色,并再次恢复成黑色。 通过比较,指示斑马是否在图像中的特征将根本不改变,并且描述斑马位置的特征 将缓慢地改变。因此,我们可能希望正则化我们的模型,从而能够学习到那些随时 间变化较为缓慢的特征。
慢原则早于慢特征分析,并已被应用于各种模型 (Hinton, 1989; Fouml;ldiaacute;k, 1989; Mobahi et al., 2009; Bergstra and Bengio, 2009)。一般来说,我们可以将慢原则应用 于可以使用梯度下降训练的任何可微分模型。为了引入慢原则,我们可以通过向代价函数添加以下项
其中 lambda; 是确定慢度正则化强度的超参数项,t 是样本时间序列的索引,f 是需要正则 化的特征提取器,L 是测量 f(x(t)) 和 f(x(t 1)) 之间的距离的损失函数。L 的一个 常见选择是平均平方误差。 慢特征分析是慢原则中一个特别高效的应用。由于它被应用于线性特征提取器, 并且可以通过闭式解训练,所以它是高效的。像ICA的一些变体一样,SFA本身不 是生成模型,只是在输入空间和特征空间之间定义了一个线性映射,但是没有定义 特征空间的先验,因此输入空间中不存在 p(x) 分布。 SFA算法 (Wiskott and Sejnowski, 2002) 包括将 f(x;theta;) 定义为线性变换,并求 解满足如下约束
以及
的优化问题
学习特征具有零均值的约束对于使问题具有唯一解是必要的; 否则我们可以向所 有特征值添加一个常数,并获得具有相等慢度目标值的不同解。特征具有单位方差 的约束对于防止所有特征趋近于 0 的病态解是必要的。与PCA类似,SFA特征是有 序的,其中学习第一特征是最慢的。要学习多个特征,我们还必须添加约束
这要求学习的特征必须彼此线性去相关。没有这个约束,所有学习到的特征将简单 地捕获一个最慢的信号。可以想象使用其他机制,如最小化重构误差,也可以迫使 特征多样化。但是由于SFA特征的线性,这种去相关机制只能得到一种简单的解。 SFA问题可以通过线性代数软件获得闭式解。
在运行SFA之前,SFA通常通过对 x 使用非线性的基扩充来学习非线性特征。例 如,通常用 x 的二次基扩充来代替原来的 x,得到一个包含所有 xixj 的向量。然后可以通过反复地学习一个线性SFA特征提取器,对其输出应用非线性基扩展,然后在 该扩展之上学习另一个线性SFA特征提取器的方式来组合线性SFA模块从而学习深 度非线性慢特征提取器。
当训练自然场景视频的小块空间补丁的时候,使用二次基扩展的SFA所学习到的 特征与 V1 皮层中那些复杂细胞的特征有许多共同特性 (Berkes and Wiskott, 2005)。 当训练计算机渲染的 3-D 环境内随机运动的视频时,深度SFA模型能够学习的特征 与大鼠脑中用于导航的神经元学到的特征有许多共同特性 (Franzius et al., 2007)。 因此从生物学角度上说SFA是一个合理的有依据的模型。
SFA的一个主要优点是,即使在深度非线性条件下,它依然能够在理论上预 测SFA能够学习哪些特征。为了做出这样的理论预测,必须知道关于配置空间的
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[238676],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。