Image Super-Resolution Using Deep Convolutional Networks
We propose a deep learning method for single image super-resolution (SR). Our method directly learns an end-to-end mapping between the low/high-resolution images. The mapping is represented as a deep convolutional neural network (CNN) that takes the low-resolution image as the input and outputs the high-resolution one. We further show that traditional sparse-coding-based SR methods can also be viewed as a deep convolutional network. But unlike traditional methods that handle each component separately, our method jointly optimizes all layers. Our deep CNN has a lightweight structure, yet demonstrates state-of-the-art restoration quality, and achieves fast speed for practical on-line usage. We explore different network structures and parameter settings to achieve trade-offs between performance and speed. Moreover, we extend our network to cope with three color channels simultaneously, and show better overall reconstruction quality.
Introduction
Single image super-resolution (SR) , which aims at recovering a high-resolution image from a single low-resolution image, is a classical problem in computer vision. This problem is inherently ill-posed since a multiplicity of solutions exist for any given low-resolution pixel. In other words, it is an underdetermined inverse problem, of which solution is not unique. Such a problem is typically mitigated by constraining the solution space by strong prior information.
To learn the prior, recent state-of-the-art methods mostly adopt the example-based strategy. These methods either exploit internal similarities of the same image , or learn mapping functions from external low- and high-resolution exemplar pairs.
The external example-based methods can be formulated for generic image super-resolution, or can be designed to suit domain specific tasks, face hallucination , according to the training samples provided.
The sparse-coding-based method is one of the representative external example-based SR methods. This method involves several steps in its solution pipeline.
First, overlapping patches are densely cropped from the input image and pre-processed (subtracting mean and normalization). These patches are then encoded by a low-resolution dictionary. The sparse coefficients are passed into a high-resolution dictionary for reconstructing high-resolution patches. The overlapping reconstructed patches are aggregated ( by weighted averaging) to produce the final output. This pipeline is shared by most external example-based methods, which pay particular attention to learning and optimizing the dictionaries or building efficient mapping functions . However, the rest of the steps in the pipeline have been rarely optimized or considered in an unified optimization framework.
In this paper, we show that the aforementioned pipeline is equivalent to a deep convolutional neural network (more details in Section ). Motivated by this fact, we consider a convolutional neural network that directly learns an end-to-end mapping between low- and high-resolution images.
Our method differs fundamentally from existing external example-based approaches, in that ours does not explicitly learn the dictionaries or manifolds for modeling the patch space. These are implicitly achieved via hidden layers. Furthermore, the patch extraction and aggregation are also formulated as convolutional layers, so are involved in the optimization. In our method, the entire SR pipeline is fully obtained through learning, with little pre/post-processing.
We name the proposed model Super-Resolution Convolutional Neural Network (SRCNN)(The implementation is available at http://mmlab.ie.cuhk.edu.hk/projects/SRCNN.html.). The proposed SRCNN has several appealing properties.
First, its structure is intentionally designed with simplicity in mind, and yet provides superior accuracy(Numerical evaluations by using different metrics such as the Peak Signal-to-Noise Ratio (PSNR), structure similarity index (SSIM) , multi-scale SSIM , information fidelity criterion , when the ground truth images are available.) compared with state-of-the-art example-based methods. Figure shows a comparison on an example.
Second, with moderate numbers of filters and layers, our method achieves fast speed for practical on-line usage even on a CPU. Our method is faster than a number of example-based methods, because it is fully feed-forward and does not need to solve any optimization problem on usage. Third, experiments show that the restoration quality of the network can be further improved when (i) larger and more diverse datasets are available, and/or (ii) a larger and deeper model is used. On the contrary, larger datasets/models can present challenges for existing example-based methods.
Furthermore, the proposed network can cope with three channels of color images simultaneously to achieve improved super-resolution performance.
Overall, the contributions of this study are mainly in three aspects:
We present a fully convolutional neural network for image super-resolution. The network directly learns an end-to-end mapping between low- and high-resolution images, with little pre/post-processing beyond the optimization.
We establish a relationship between our deep-learning-based SR method and the traditional sparse-coding-based SR methods. This relationship provides a guidance for the design of the network structure.
We demonstrate that deep learning is useful in the classical computer vision problem of super-resolution, and can achieve good quality and speed.
A preliminary version of this work was presented earlier .
The present work adds to the initial version in significant ways. Firstly, we improve the SRCNN by introducing larger filter size in the non-linear mapping layer, and explore deeper structures by adding non-linear mapping layers.
Secondly
剩余内容已隐藏,支付完成后下载完整资料
使用深度卷积神经网络进行图像超分辨率重建
我们提出了一种用于单图像超分辨率的深度学习方法。 我们的方法直接学习端到端低/高分辨率图像之间的映射。 映射表示为以低分辨率图像作为输入,输出高分辨率图像的深度卷积神经网络。 我们进一步证明了传统的基于稀疏编码的超分辨率重建方法也可以看作是深度卷积网络。 但是与传统方法分别处理每个组件不同,我们的方法一起优化了所有层。 我们的深度卷积神经网络具有轻巧的结构,同时展现了最先进的修复质量,并实现了快速的实际在线使用速度。 我们探索不同的网络结构和参数设置以实现性能和速度之间的协调。 此外,我们扩展了网络以同时处理三个颜色通道,结果显示整体重建质量更好。
介绍
从单个低分辨率图像中恢复高分辨率图像的单图像超分辨率(SR)是计算机视觉中的经典问题。 由于对于任何给定的低分辨率像素都存在多种解决方案,因此该问题天生就不稳定。 换句话说,这是一个不确定的反问题,其解决方案不是唯一的。 通常通过强先验信息约束解决方案空间来缓解这种问题。
现有的最新技术,大多数都采用基于示例的策略。 这些方法要么利用同一图像的内部相似性,要么从外部低分辨率和高分辨率示例对中学习映射功能。
根据提供的训练样本,可以将基于外部示例的方法制定为通用图像超分辨率,或者可以设计为适合特定领域的任务。
基于稀疏编码的方法是代表性的基于外部示例的SR方法之一。 此方法在其解决方案流水线中涉及以下几个步骤:
首先,从输入图像中密集裁剪出重叠的图像块并进行预处理(减去均值和归一化)。 这些图像块然后由低分辨率字典进行编码。 稀疏系数被传递到高分辨率字典中,以重建高分辨率图像块。 重叠的重建图像块被汇总(通过加权平均)以产生最终输出。
大多数基于示例的外部方法都使用这种流水线。 这些方法特别注意学习和优化字典或构建有效的映射功能。 但是,流水线中的其余步骤很少在统一优化框架中进行过优化或考虑。
在本文中,我们证明了上述流水线等效于深度卷积神经网络。 基于这一事实,我们考虑了一个卷积神经网络,该网络可以直接学习低分辨率和高分辨率图像之间的端到端映射。
我们的方法从根本上不同于现有的基于外部示例的方法,因为我们的方法没有明确学习用于对图像块的空间进行建模的字典或流形。 这些是通过隐藏层隐式实现的。 此外,图像块提取和聚集也被公式化为卷积层,因此涉及优化。 在我们的方法中,整个SR流水线是通过学习完全获得的,几乎不需要预处理。
我们将所提议的模型命名为“超分辨率卷积神经网络(SRCNN)”。SRCNN具有几个吸引人的属性。
首先,其结构经过精心设计,同时考虑了简单性,但仍提供了与基于最新示例的方法进行比较显示的卓越的准确性。
其次,通过适度的过滤器和层数,即使在CPU上,我们的方法也可以实现实际在线使用的快速速度。 我们的方法比许多基于示例的方法要快,因为它是完全前馈的,不需要解决使用上的任何优化问题。
第三,实验表明,当可获得更大,更多样化的数据集,和/或使用更大,更深的模型时,可以进一步提高网络的重建质量。 相对地,较大的数据集/模型可能会对现有的基于示例的方法提出挑战。
此外,所提出的网络可以同时处理三个彩色图像通道,以实现改进的超分辨率性能。
总的来说,这项研究的贡献主要在三个方面:
- 我们提出了一种用于图像超分辨率的全卷积神经网络。 该网络可直接学习低分辨率和高分辨率图像之间的端到端映射,无需进行优化即可进行很少的前/后处理。
- 我们在基于深度学习的SR方法和传统的基于稀疏编码的SR方法之间建立了联系。 这种关系为网络结构的设计提供了指导。
- 我们证明深度学习在经典的超分辨率计算机视觉问题中很有用,并且可以实现良好的质量和速度。
这项工作的初步版本已在前面介绍。
目前的工作以重要的方式添加到初始版本中。 首先,我们通过在非线性映射层中引入更大的滤波器来改进SRCNN,并通过添加非线性映射层来探索更深的结构。
其次,我们扩展SRCNN以同时处理三个颜色通道(在YCbCr或RGB颜色空间中)。 通过实验,我们证明与单通道网络相比,性能可以提高。
第三,大量的新分析和直观的解释被添加到初始结果中。 我们还将原始实验从Set5和Set14测试图像扩展到BSD200(200个测试图像)。 此外,我们与许多最新发布的方法进行了比较,并确认我们的模型使用不同的评估指标仍胜过现有方法。
相关工作
图像超分辨率
根据图像先验,单图像超分辨率算法可分为四种类型:预测模型,基于边缘的方法,图像统计方法和基于图像块(或基于示例)的方法。 这些方法已经在Yang的工作中进行了彻底的研究和评价。 其中,基于示例的方法可实现最先进的性能。
基于内部示例的方法利用自相似性属性并从输入图像生成示例图像块。 它是在Glasner的工作中首次提出的,并提出了一些改进的变体以加快实施。
基于外部示例的方法可从外部数据集中学习低/高分辨率图像块之间的映射。 这些研究在如何学习紧凑的字典或流形空间以关联低/高分辨率斑块以及如何在此类空间中执行表示方案方面有所不同。 在弗里曼的开创性工作中,字典直接表示为低/高分辨率图像块对,并且在低分辨率空间中找到输入图像块的最近邻居(NN),并使用其对应的高分辨率图像块进行重建。
Chang介绍了一种流形嵌入技术作为NN策略的替代方法。 在Yang的工作中,上述NN对应关系发展为更复杂的稀疏编码公式。 提出了诸如核回归,简单函数,随机森林和锚定邻域回归等其他映射函数,以进一步提高映射精度和速度。 基于稀疏编码的方法及其一些改进是当今最先进的SR方法之一。 在这些方法中,图像块是优化的重点。 图像块提取和聚合步骤被视为预处理/后处理,并分别进行处理。
大多数SR算法专注于灰度或单通道图像超分辨率。 对于彩色图像,上述方法首先将问题转换为不同的色彩空间(YCbCr或YUV),并且仅将SR应用于亮度通道。
也有尝试同时超分辨所有通道的作品。 例如,Kim和Kwon和Dai将他们的模型应用于每个RGB通道,并将它们组合以产生最终结果。 但是,他们都没有分析不同通道的SR性能以及恢复所有三个通道的必要性。
卷积神经网络
卷积神经网络(CNN)可以追溯到数十年前,而深层CNN最近由于其在图像分类方面的成功而显示出爆炸性的普及。 它们也已成功应用于其他计算机视觉领域,例如物体检测,面部识别和行人检测。 在此过程中,有几个至关重要的因素:
- 在现代功能强大的GPU上进行有效的培训实施;
- 整流线性单元(ReLU)的建议,该提议可使收敛速度大大提高,同时仍具有良好的质量;
- 轻松访问大量数据(例如ImageNet)以训练更大的模型。
我们的方法也受益于这些进展。
深度学习进行图像还原
已经有一些使用深度学习技术进行图像恢复的研究。 多层感知器(MLP),其所有层都是完全连接的(与卷积相反),适用于自然图像去噪和去模糊后去噪。 与我们的工作更紧密相关的是,卷积神经网络被应用于自然图像的去噪和去除噪声模式(污垢/雨水)。 这些恢复问题或多或少是由去噪驱动的。 Cui建议在基于内部示例的概念下将自动编码器网络嵌入其超分辨率流水线中。
由于级联的每一层都需要对自相似性搜索过程和自动编码器进行独立的优化,因此深度模型并未专门设计为端到端解决方案。 相反,SRCNN优化了端到端映射。 此外,SRCNN的速度更快。 它不仅是定量上优越的方法,而且是一种实用的方法。
卷积神经网络的超分辨率还原
公式
考虑单个低分辨率图像,我们首先使用双三次插值将其放大到所需大小,这是我们执行的唯一预处理。 让我们将插值图像表示为Y。 我们的目标是恢复从Y得到的图像F(Y)使其尽可能相似基准真相高分辨率图像X
为了便于演示,我们仍然将Y称为“低分辨率”图像,尽管它的大小与X相同。 我们希望学习一个映射F,该映射在概念上包括三个操作:
- 图像块提取和表示:此操作从低分辨率图像Y中提取(重叠)图像块,并将每个图像块表示为高维向量。 这些向量包括一组特征图,其数量等于向量的维数。
- 非线性映射:此操作将每个高维向量非线性映射到另一个高维向量。 从概念上讲,每个映射向量都是高分辨率图像块的表示。 这些向量包含另一组特征图。
- 重建:此操作汇总了上面的高分辨率逐块表示,以生成最终的高分辨率图像。 该图像有望与基准X相似。
我们将展示所有这些操作形成一个卷积神经网络。
生成对抗网络
对抗网络
当两个模型都使用时,对抗建模框架最容易应用多层感知器。 为了了解生成器在数据x上的分布p_g,我们定义一个先验输入噪声变量p_z(z),则表示到数据空间的映射为G(z;theta;_g),其中G是参数为theta;_g的多层感知器表示的微分函数。 我们还定义了输出单个标量的第二个多层感知器D(x;theta;_d)。 D(x)表示x来自数据而不是p_g的概率。 我们训练D以最大化分配给训练样本和由G生成的样本的标签的正确率。 我们同时训练G以最大程度地减少log(1-D(G(z)))。
在下一部分中,我们将对对抗网进行理论分析,从本质上表明,训练准则允许人们用G恢复的数据分布,并且D具有足够的容量。 有关该方法的非正式的,更具教学性的说明,请参见图。 在实践中,我们必须使用迭代的数值方法来实现戏。 在训练的内部循环中,禁止优化D到完成,不然在有限的数据集上会导致过度拟合。 相反,我们在优化步骤和优化步骤之间交替。 只要更改足够缓慢,就可以将其维持在最佳解决方案附近。 这种策略类似于SML / PCD 训练从一个学习步骤到下一个学习步骤维护从马尔可夫链进行采样的方式,以避免在学习的内部循环中陷入马尔可夫链。
在实践中,方程式可能无法为G提供足够的梯度来学习。 在学习初期, 当G差时,D可以高置信度拒绝样品,因为它们明显不同于训练数据。 在这种情况下,log(1-D(G(z)))饱和。 与其训练G以使其最小化log(1-D(G(z))),我们可以训练G以使log D(G(z))最大化。 该目标函数导致G和D相同固定点,但在学习早期提供了更强的梯度。
优点与缺点
与以前的建模框架相比,此新框架具有优缺点。 缺点主要是没有明确表示p_g(x),而D必须在训练过程中与G保持良好的同步,就像玻尔兹曼机的负链一样在学习步骤之间必须保持的最新状态。 优点是永远不需要马尔可夫链,仅使用向后传播来获得梯度,在此过程中不需要推理学习,而且各种各样的功能可以纳入模型。 表2总结了生成对抗网络与其他生成建模方法的比较。 前述优点主要是计算上的。 对抗模式也可能因仅在渐变流过鉴别器的情况下未通过数据检查直接更新而获得生成网络的某些统计优势。 但这意味着输入不会直接复制到生成器的参数中。 对抗网络的另一个优势是,它们可以表现非常尖锐的甚至简并的分布,而基于马尔可夫链要求分布有些模糊,以便马尔科夫链能够模式之间的混合。
使用生成对抗网络的逼真的单图像超分辨率重建
尽管使用更快、更深的卷积神经网络在单图像超分辨率的准确性和速度方面取得了突破,但仍然存在一个主要问题仍未解决:当我们在较大的放大比例下进行超分辨率时,如何恢复更精细的纹理细节?
基于优化的超分辨率方法的行为主要由目标函数的选择决定。 最近的工作主要集中在最小化均方重构误差上。 得出的估计值具有很高的峰值信噪比,但是它们通常缺少高频细节,并且在某种意义上说,它们无法满足较高分辨率下的保真度,因此在感觉上并不令人满意。 在本文中,我们介绍了SRGAN,这是一种用于图像超分辨率(SR)的生成对抗网络(GAN)。 就我们所知,这是第一个能够推断出逼真的自然图像的放大系数的框架。 为此,我们提出了一种感知损失函数,该函数由对抗损失和内容损失组成。 对抗性损失使用鉴别器网络将我们的解决方案推向自然图像流形,该鉴别器网络经过训练以区分超分辨图像和原始照片级逼真的图像。 另外,我们使用由于感知相似性而不是像素空间相似性引起的内容损失。 我们的深层残差网络能够在公共基准上从大量降采样后的图像中恢复逼真的纹理。 广泛的均值评分(MOS)测试显示,使用SRGAN可以显着提高感知质量。 用SRGAN获得的MOS得分比使用任何最新方法获得的MOS得分更接近原始高分辨率图像的MOS得分。
介绍
监督SR算法的优化目标通常是最小化恢复的HR图像和基准之间的MSE。 这是很方便的,因为最小化MSE也会最大化PSNR,这是用于评估和比较SR算法的常用方法。 但是,MSE(和PSNR)捕获感知相关差异(例如高纹理细节)的能力非常有限,因为它们是基于逐像素图像差异定义的。 在图2中说明了这一点,其中最高PSNR不一定反映出感知上更好的SR结果。 超分辨图像和原始图像之间的感知差异意味着恢复的图像不像Ferwerda定义的那样真实。
在这项工作中,我们提出了一个SRGAN,为此我们采用了具有跳过连接功能的深度ResNet,并且将MSE作为唯一的优化目标。 与以前的工作不同,我们使用VGG网络的高级特征图结合鉴别器来定义一种新颖的感知损失,该鉴别器鼓励应用在感知上难以与HR参考图像区分开时。
相关工作
图像超分辨率
最近有关图像SR的概述文章包括Nasrollahi和Moeslund或Yang等。 这里我们将重点关注SISR,而不会进一步讨论从多个图像中恢复HR图像的方法。
基于预测的方法是解决SISR的首批方法之一。虽然这些滤波方法(线性,双三次或Lanczos滤波)可能非常快,但它们过于简化了SI
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[236571],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。