英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料
无监督表征学习 深层卷积 生成对抗性网络
摘要:近年来,使用卷积网络的监督式学习在计算机视觉应用中得到了广泛的应用。相比之下,带有cnn的非监督式学习受到的关注较少。在这项工作中,我们希望能够帮助弥合监督式学习神经网络的成功和无限制学习之间的鸿沟。我们介绍了一类被称为深度卷积生成对抗性网络(DCGANs)的cnn,它们具有一定的体系结构限制,并证明它们是非监督式学习的强有力候选者。通过对各种图像数据集的训练,我们发现了令人信服的证据,证明我们的深度卷积对抗对学习了从生成器和鉴别器中的对象部分到场景的表示层次。此外,我们将学习到的特征用于新的任务——展示它们作为通用图像代码的适用性。
1.引言
从大型未标记数据集中学习可重用特征表示一直是研究的热点。在计算机视觉的背景下,人们可以利用几乎无限量的未标记图像和视频来学习良好的中间表示法,然后这些中间表示法可以用于各种监督式学习任务,如图像分类。我们提出一种建立良好图像表示的方法是通过训练生成对抗性网络(GANs),然后将生成器和鉴别器网络的某些部分重用为监督任务的特征提取器。广域网提供了一种有吸引力的替代最大似然技术。另外,可以认为他们的学习过程和缺乏启发式代价函数(如像素级独立均方误差)是吸引表征学习。众所周知,广域网在训练时是不稳定的,经常导致产生无意义输出的发电机。在试图理解和可视化GANs学习的内容以及多层GANs的中间表示方面,已发表的研究非常有限。
在本文中,我们做出了以下的贡献:
(1)我们提出并评估了一组关于卷积广域网体系结构拓扑的约束,使它们在大多数情况下能够稳定地进行训练。我们将这类架构命名为深度卷积广域网(DCGAN)
(2)我们使用训练好的鉴别器来完成图像分类任务,与其他无监督算法相比,具有竞争性的性能。
(3)我们可视化的过滤器学会了广域网和经验表明,特定的过滤器已经学会绘制特定的对象。
(4)我们证明了生成器具有有趣的向量算术属性,允许对生成的样本的许多语义质量进行简单的操作。
2. 相关工作
2.1从未标记数据中学习表征
无监督表示学习是计算机视觉研究中的一个重要课题,也是图像研究中的一个重要课题。无监督表示学习的经典方法是对数据进行聚类(例如使用k-均值),并利用聚类来改进分类得分。在图像上下文中,可以对图像斑块进行层次聚类(Coatesamp;Ng,2012)来学习强大的图像表示。另一种流行的方法是训练自动编码器(卷积,堆叠(Vincent等人,2010年),分离代码的内容和位置(Zhao等人,2015年),梯形结构(Rasmus等人,2015年),将图像编码成一个紧凑的代码,并解码代码,以尽可能准确地重建图像。这些方法也被证明可以从图像像素中学习良好的特征表示。深度信念网络(Lee等人,2009)也被证明在学习层次表示方面工作良好。
2.2生成自然图像
生成图像模型研究得很好,分为两类:参数模型和非参数模型。
非参数模型经常从现有图像的数据库中进行匹配,通常是匹配图像的补丁,已经被用于纹理合成(Efros等,1999),超分辨率(Freeman等,2002)和绘制中(Haysamp;Efros,2007)。
生成图像的参数化模型已经被广泛地探索(例如在MNIST数字或纹理合成(Portillaamp;Simoncelli,2000))。然而,生成真实世界的自然图像直到最近才取得了很大的成功。变分抽样方法生成图像(Kingmaamp;Welling,2013)已经取得了一些成功,但样本往往遭受模糊。另一种方法是使用迭代的正向扩散过程生成图像(Sohl-Dicksteinetal.,2015)。生成对抗性网络(Goodfellowetal.,2014)生成的图像充满了噪音和不可理解性。拉普拉斯金字塔扩展这种方法(丹顿等人,2015年)显示了更高质量的图像,但他们仍然遭受的对象看起来不稳定,因为噪声引入链多模型。一种循环网络方法(Gregor等人,2015年)和一种去卷积网络方法(Dosovitskiy等人,2014年)最近在生成自然图像方面也取得了一些成功。然而,他们没有利用生成器完成监督任务。
2.3可视化CNNS的内部结构
使用神经网络的一个不断的批评是,它们是黑箱方法,对网络在简单的人类消耗算法的形式中所做的工作了解甚少。在CNNs的背景下,Zeileret。Al(Zeileramp;Fergus,2014)表明,通过使用反卷积和过滤最大激活,人们可以找到每个卷积滤波器在网络中的近似用途。类似地,在输入端使用梯度下降法可以让我们检查激活某些过滤器子集的理想图像。
3.方法和模型体系结构
历史上曾试图扩大广域网使用cnn的模型图像已经失败。这促使作者lagan(丹顿等人,2015年)开发一个替代方法,它的高档低分辨率生成的图像,可以建模更可靠。我们也遇到了困难,试图规模化广域网使用CNN架构常用的监督文献。然而,在广泛的模型探索之后,我们确定了一系列的架构,这些架构在一系列的数据集中产生了稳定的训练,并允许更高的训练分辨率和更深层的生成模型。
我们的方法的核心是采用和修改最近演示了对CNN建筑技术的三个变化。
首先是全卷积网络(Springenberg等人,2014),它用跨卷积取代了确定性的空间池函数(比如maxpooling),允许网络学习自己的空间下行采样。我们在生成器中使用这种方法,允许它学习自己的空间上采样和鉴别器。
第二个趋势是取消完全连接层上的卷积功能。这方面最强有力的例子是全球平均汇集,它已被用于最先进的图像分类模型(Mordvintsev等人)。我们发现全局平均池提高了模型的稳定性,但降低了收敛速度。将最高卷积特征直接连接到发生器和鉴别器的输入和输出的中间地带运行良好。Gan的第一层以均匀的噪声分布z作为输入,可以称之为完全连接,因为它只是一个矩阵乘法,但结果被重新塑造成一个四维张量,并用作卷积堆栈的开始。对于鉴别器,最后一个卷积层被平坦,然后馈入一个单一的s形输出。示例模型结构的可视化见图1。
第三种是批量归一化(Ioffeamp;Szegedy,2015),它通过对每个单元的输入进行归一化使其均值和单元方差为零来稳定学习。这有助于处理由于初始化不良而产生的培训问题,并有助于更深层模型中的渐变流。这被证明是获得深层生成器开始学习的关键,防止生成器将所有的样本崩溃到一个单一的点,这是在广域网中观察到的一种常见的故障模式。然而,直接将批范数应用于所有层,会导致样本振荡和模型不稳定。通过不对发电机输出层和鉴频器输入层应用批处理规范,可以避免这种情况。
除了使用Tanh函数的输出层外,发生器中使用了ReLU激活(Nairamp;Hinton,2010)。我们观察到,使用有界激活允许模型更快地学习饱和和覆盖训练分布的颜色空间。在判别器中,我们发现漏泄纠正激活(Maas等人,2013)(Xu等人,2015)工作得很好,特别是对于更高的分辨率建模。这是与原来的GAN文件,其中使用了最大激活(古德菲勒等人,2013年)。
稳定的深卷积广域网体系结构指南
(1)用分段卷积(鉴别器)和分段卷积(生成器)替换任何合用层。
(2)在生成器和鉴别器中都使用批量模式。
(3)为深层架构移除完全连接的隐藏层。
(4)在生成器中使用ReLU激活除了输出层之外的所有层,它使用Tanh。
(5)在鉴别器中对所有层使用LeakyReLU激活。
4.对抗性训练详情
我们在三个数据集上训练DCGANs,大规模场景理解(LSUN)(Yu等人,2015),Imagenet-1k和一个新组装的人脸数据集。以下是每个数据集使用的详细信息。
除了缩放到tanh激活函数的范围之外,没有对训练图像进行任何预处理。所有的模型都用小批量的随机梯度下降(SGD)进行训练,小批量的128个。所有的权重都是从0中心的正态分布初始化的,标准差为0.02。在LeakyReLU,泄漏的斜率被设置为0.2在所有的模型。尽管先前的GAN工作已经利用动量来加速培训,我们使用了带有调整过的超参数的Adam优化器(Kingmaamp;Ba,2014)。我们发现建议的0.001的学习率太高了,用0.0002代替。此外,我们还发现,把动量项szlig;1留在建议值0.9时导致训练振荡和不稳定,而降低到0.5有助于稳定训练。
图1:用于LSUN场景建模的DCGAN生成器。将一个100维均匀分布的z映射为一个具有多个特征映射的小空间范围的卷积表示。一系列四个分段的卷积(在最近的一些论文中,这些被错误地称为去卷积),然后将这个高级表示转换成6464像素的图像。值得注意的是,没有使用完全连接或连接的层。
4.1 LSUN
随着生成图像模型样本视觉质量的提高,过拟合和记忆训练样本的问题日益突出。为了演示我们的模型如何使用更多的数据和更高的分辨率生成,我们在LSUN卧室数据集上训练了一个模型,其中包含300多万个训练示例。最近的分析表明,在模型学习的速度和它们的泛化性能之间有一个直接的联系(哈特等人,2015)。我们展示了一个时代的训练样本(图2),模仿在线学习,以及收敛后的样本(图3),以此证明我们的模型不是通过简单的过拟合/记忆训练样本产生高质量的样本。未对图像进行数据增强。
4.1.1重复数据删除
为了进一步降低发生器记忆输入例子的可能性(图2),我们执行了一个简单的图像去复制过程。我们适合3072-128-3072降噪辍学正则化RELU自动编码器对32x32下采样中心作物的训练实例。然后通过对ReLU激活的阈值化处理,将产生的编码层激活进行二进制化,这种方法已被证明是一种有效的信息保存技术,并提供了一种方便的语义散列形式,允许线性时间去重复。目视检查杂凑碰撞显示高精度,估计假阳性率小于1/100。此外,该技术检测并删除了大约275,000个重复的,表明召回率很高。
图2:在一个训练通过数据集后生成卧室。理论上,该模型可以学习记忆训练样本,但这是不可能的实验,因为我们的训练与小批量学习率和SGD。我们知道没有先前的经验证明证明记忆与SGD和一个小的学习率。
图3:经过五个时期的训练后产生的卧室。似乎有证据表明,视觉不适合通过重复的噪音纹理多个样本,如基板的一些床。
4.2面孔
我们从人名的随机网络图片查询中提取包含人脸的图片。这些人的名字是从dbpedia获得的,其标准是他们出生在现代。这个数据集有来自10K人的3M图像。我们在这些图像上运行一个OpenCV面部检测器,保持足够高的分辨率,这样我们就有了大约35万个面部盒子。我们使用这些脸盒进行训练。未对图像进行数据增强。
4.3 IMAGENET-1K
我们使用Imagenet-1k(Dengetal.,2009)作为无监督训练的自然图像源。我们培训32种32分钟剩余的中心作物。未对图像进行数据增强。
5.Dcgans能力的经验验证
5.1用GANS作为特征提取器对CIFAR-10进行分类
一种常用的评价无监督表征学习算法质量的方法是将它们作为有监督数据集的特征提取器,并评价基于这些特征的线性模型的性能。
在CIFAR-10数据集上,利用k均值作为特征学习算法的单层特征提取流水线,实现了非常强大的基线性能。当使用大量的特征映射(4800)时,该技术可以达到80.6%的准确率。一个无监督的多层次扩展的基本算法达到82.0%的准确率(Coatesamp;Ng,2011)。为了评估DCGANs学习的监督任务表征的质量,我们在Imagenet-1k上进行训练,然后利用鉴别器的各层卷积特征,最大汇集各层表征,生成一个44空间网格。然后对这些特征进行平坦化和拼接,形成一个28672维向量,并在其上训练一个正则化线性L2-SVM分类器。这达到82.8%的准确率,执行所有的k均值为基础的方法。值得注意的是,与基于k均值的技术相比,鉴别器有许多较少的特征映射(最高层为512),但由于4个空间位置的多个层次,确实导致了更大的总特征向量大小。的性能仍然低于样本CNNs的技术,训练正常的鉴别CNNs在非监督的方式区分特定选择,积极扩大,来自源数据集的样本样本。进一步的改进可以通过细化鉴别器的表示来完成,但是我们把这留给以后的工作。此外,由于我们的DCGAN从未接受过CIFAR-10的训练,这个实验也证明了所学特征的领域健壮性。
表1:使用我们预先训练的模型的CIFAR-10分类结果。我们的DCGAN不是在CIFAR-10上预先训练的,而是在Imagenet-1k上,这些特征被用来对CIFAR-10图像进行分类。
Model |
Accuracy |
Accuracy (400 per class) |
max # of features units |
1 Layer K-means |
80.6% |
<p 剩余内容已隐藏,支付完成后下载完整资料
资料编号:[238699],资料为PDF文档或Word文档,PDF文档可免费转换为Word </p |
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。