场景文本检测和识别:深度学习时代外文翻译资料

 2022-08-15 16:50:46

英语原文共 20 页,剩余内容已隐藏,支付完成后下载完整资料


场景文本检测和识别:深度学习时代

摘要: 随着深度学习的兴起和发展,计算机视觉已发生了巨大的变革和重塑。作为一个在计算机视觉的重要研究领域,场景文本的检测和识别不可避免地受到了这一浪潮的影响革命,从而进入深度学习时代。近年来,社区取得了长足发展在思想,方法和绩效上。本次调查旨在总结和分析主要变化和重大意义。深度学习时代场景文本检测与识别的新进展。通过本文,我们致力于:(1)介绍新的见解和想法;(2)重点介绍最新技术和基准;(3)展望未来趋势。具体来说,我们将强调深度学习带来的巨大差异和巨大挑战仍然存在。我们希望这份审查文件能够作为该领域研究人员的参考书。

关键词: 场景文本,检测,识别,深度学习,调查

1 引言

毫无疑问,文字是最精彩,有影响力的人类创造。作为书面人类语言的形式,文本使得可靠地实现成为可能并有效地跨时间传播或获取信息和空间。从这个意义上说,文本构成了人类文明。

一方面,文本是沟通的重要工具和协作,一直扮演着更重要的角色,在现代社会比以往任何时候都好;另一方面,大量文本中包含的精确的高级语义可以有助于了解我们周围的世界。例如,文本信息可用于各种实际应用中,例如图像搜索,即时翻译,机器人导航和工业自动化。因此,自动从自然环境中读取文本(如图1-1所示),也称为场景文本检测和识别或PhotoOCR,计算机视觉中流行且重要的研究主题。

图1-1:场景文本检测与处理示意图

然而,尽管经过多年的研究,一系列检测和检测时仍可能会遇到挑战。在野外识别文本,困难主要源于从三个方面:

bull;自然场景中文本的多样性和可变性

与文档中的脚本,自然场景中的文本截然不同表现出更高的多样性和可变性。例如,场景文本的实例可以使用不同的语言,颜色,字体,大小,方向和形状。而且,方面场景文本的比例和布局可能会有很大差异。所有这些变体对为自然场景中的文本设计的检测和识别算法提出了挑战。

bull;背景的复杂性和干扰

自然场景的背景几乎是不可预测的。那里可能是与文本极为相似的模式(例如,树树叶,交通标志,砖块,窗户和栅栏),或由异物引起的阻塞,这可能会导致混乱和错误。

bull;成像条件不完善

在不受控制的情况下,文字图像和视频的质量无法达到得到保证。也就是说,在较差的成像条件下,文本实例可能具有低分辨率和严重失真由于不适当的拍摄距离或角度,或模糊因为没有聚焦,晃动或由于光线不足,或被高光或阴影破坏。这些困难贯穿了深渊学习显示了其在计算机视觉以及在其他领域。随着深度学习的兴起研究人员AlexNet 赢得ILSVRC2012竞赛转向深度神经网络进行自动特征学习并开始进行更深入的研究。社区是现在正在致力于更具挑战性的目标。近年来取得的进展可以总结如下:

bull;整合深度学习

几乎所有最新方法都是基于深度学习模型构建的。 最重要的是,深度学习使研究人员摆脱了繁重的工作反复设计和测试手工制作的功能,这引起了作品的蓬勃发展,推动了进一步信封。 具体来说,使用深度学习大大简化了整个流程。 此外,这些算法比以前的版本有了明显的改进在标准基准上。 基于梯度的训练程序也有助于端到端的训练方法。

bull;面向目标的算法和数据集

研究人员现在转向更具体的方面和目标。新发布的针对现实场景中的困难的解决方案收集具有独特和代表性特征的数据集。 例如,有些数据集的特征很长文字,模糊文字和弯曲文字。 通过驱动这些数据集,最近发表的几乎所有算法年旨在应对特定挑战。 例如,一些建议用于检测定向文本,而另一些则针对在模糊和未聚焦的场景图像上。 这些想法也是结合起来可以制作更多通用的方法。

bull;辅助技术的进步

除了新的专门用于主要任务的数据集和模型,辅助不能直接解决任务的技术也会发现该字段中的位置,例如合成数据和引导程序。在本次调查中,我们概述了基于深度学习的文本检测和识别的最新发展从静止图像中提取。我们从不同的角度审查方法透视图,并列出最新的数据集。我们还分析了现状和未来的研究趋势。已经有好几篇优秀的论文,它们也组织和分析了与文本检测和识别相关的作品。但是,这些论文是在深度学习来临之前发表的在这一领域的突出地位。因此,他们主要关注更传统和基于功能的方法。我们提到读者也可以更全面地阅读这些文章查看和了解历史。本文将主要专注于从静止图像中提取文本信息,而不是视频。用于场景文本检测和识别在视频中,请同时参阅。本文的其余部分安排如下:在第2节中,我们简要回顾一下之前的方法。深度学习时代。在第3节中,我们列出并总结基于深度学习的算法。在第4节中,我们来看一下数据集和评估协议。最后,我们介绍了潜在的应用以及我们的对当前状态和未来趋势的看法。

2 深度学习时代之前的方法

2.1 总览

在本节中,我们将回顾一下深度学习时代之前的算法。有关这些作品的更详细和全面的介绍,请参见。对于文本检测和识别,功能设计一直是关注的焦点。在这段时间内,大多数文本检测方法都采用了基于连接组件分析(CCA)或滑动窗口(SW)的分类。基于CCA的方法首先通过多种方式(例如,颜色聚类或极端区域提取)提取候选成分,然后使用手动设计的规则或对手工特征进行自动训练的分类器来滤除非文本成分(参见图2-1)。 。在滑动窗口分类方法中,不同大小的窗口在输入图像上滑动,其中每个窗口是否分类为文本段/区域。那些被归类为阳性的样本将通过形态运算,条件随机场(CRF)和其他基于图的方法进一步分为文本区域。对于文本识别,一个分支采用了基于特征的方法。 Shi等。和姚等。提出了基于字符段的识别算法。 Rodriguez等。和Gordo等。 Almazan等人利用标签嵌入来直接执行字符串和图像之间的匹配。笔触和字符要点也被检测为分类特征。另一个人分解了识别过程变成一系列子问题。已经提出了各种方法来解决这些子问题,包括文本二值化,文本行分割,字符分割,单个字符识别和单词校正。

图2-1:具有手工特征的传统方法的图示

也已经致力于集成(即今天我们称为端到端)系统。字符被视为对象检测中的一种特殊情况,并由经过HOG特征训练的最近邻居分类器检测,然后通过基于图片结构的模型分组为单词。 Neumann和Matas 提出了一种决策延迟方法,方法是将每个字符的多个分段保持到知道每个字符的上下文的最后阶段为止。 他们使用末端区域检测字符分割,并通过动态编程算法解码识别结果。

总之,文本检测和识别方法深度学习时代之前,主要提取低级或中级手工图像特征,这要求以及重复的预处理和后处理步骤。受手部有限的表示能力的约束精巧的功能和流水线的复杂性,这些方法几乎无法处理复杂的情况,例如 模糊ICDAR2015数据集中的图像。

3深度学习时代的方法论

正如本节标题所暗示的,我们希望解决方法上的变化来应对最新进展只是新方法。我们的结论基于观察结果如下段所述。近年来的方法的特点是有以下两个区别:(1)大多数方法都利用基于深度学习的模型;(2)大多数研究人员正在从多种角度来研究这个问题方法,深度学习驱动的优势在于自动功能学习可以使我们免于设计和测试大量潜在的手工制作功能。在同一时间,来自不同观点的研究人员正在充实并促进社区进行更深入的工作,针对不同的目标,例如更快更简单的管道,宽高比不同的文字和合成数据。我们还将在本节中进一步看到整合深度学习已彻底改变了方式,研究人员着手完成这项任务,并扩大了范围。

到目前为止的研究。这是最重大的变化到前一个时代简而言之,近年来见证了蓬勃发展将研究扩展为可细分的趋势。我们在(图3-1)中总结了这些变化和趋势,我们将遵循我们调查中的这张图。在本节中,我们将现有方法分类为分级分类法,并以自顶向下的样式进行介绍。首先,我们将它们分为四种系统:(1)文本检测并定位文本的存在的检测以自然的形象(2)转录识别系统并将检测到的文本区域的内容转换为语言符号(3)同时执行以下操作的端到端系统单一管道中的文本检测和识别; (4)旨在支持文本主要任务的辅助方法检测和识别,例如综合数据生成,和图像去模糊。在每个类别下,我们进行审查不同角度的最新方法。

图3-1:近期进展和主要趋势概述

3.1检测

我们承认场景文本检测可以归类为一般对象检测下的分类,这是一分为二。但是,场景文本的检测具有不同的一组特性和挑战,需要独特的方法和解决方案。因此,它会更适合根据它们的特征对这些算法进行分类代替上述一般目的的二分法检测。不过,我们鼓励读者参考最近关于物体检测方法的调查。文本检测领域存在三个主要趋势,我们将在以下小节中逐一介绍它们。它们是:(1)简化管道;(2)变更以预测单位;(3)指定目标。

3.1.1管道简化

最重要的趋势之一是简化管线,如图3-2所示。时代之前的大多数方法深度学习的概念以及一些使用深度学习的早期方法具有多步骤的管道。最新方法已经大大简化和缩短了管道,这是减少错误传播并简化培训的关键处理。在过去的几年中,分别接受了两阶段的培训共同训练的方法超越了这些方法。主要的这些方法的组成部分是端到端可区分的模块,这是一个突出的属性。多步骤方法:早期的基于深度学习的方法将文本检测任务转换为一个多步骤过程中,使用卷积神经网络来预测输入图像中的每个像素(1)属于字符,(2)在文本区域内,(3)像素周围的文字方向。连接正响应被视为对字符或文本的检测区域。对于属于同一文本区域的字符,应用Delaunay三角剖分,此后图分区算法将字符分组为基于文本的行根据预测的方向属性。

图3-2:场景文本检测和识别的典型管道

类似地,首先预测了指示文本行区域的分割图。对于每个文本行区域,MSER用于提取候选字符。字符候选人透露规模和方向的信息基础文字行的内容。最后,最小边界框被提取为最终的文本行候选。在中,检测过程还包括几个脚步。首先,提取文本块。然后模型庄稼并且只专注于提取的文本块来提取文本中心线(TCL),它定义为原始文字行。每行文字代表存在一个文本实例。然后将提取的TCL映射图拆分分成几个TCL。然后,将每个拆分的TCL连接到原始图像。然后是语义分割模型将每个像素分类为属于同一文本的像素实例作为给定的TCL,而没有的则作为。简化管道:最近的方法遵循2-步骤管道,由端到端的可训练神经元组成网络模型和后处理步骤通常比以前的方法简单得多。这些方法主要是从通用对象检测和修改区域提议和边界框回归模块以直接本地化文本实例。我们在这里简要介绍一些代表性的作品。如图3-3(b)所示,TextBoxes 使SSD适应通过定义文本的不同方向和长宽比默认框为具有不同规格的四边形。标准基于锚的默认框预测方法的一种变体是EAST。在标准SSD网络中,有几个不同大小的特征图,检测到不同接受域的默认框。在EAST,所有功能图都是通过逐步整合在一起的上采样或U-Net结构来具体说明。尺寸最终特征图的14原始输入图像的与C通道。假设每个像素只有属于一个文字行,最终要素上的每个像素映射,即1times;1times;c特征张量,用于回归基础的矩形或四边形边界框文字行。

具体来说,是文字的存在,即文字/非文字,和几何形状,例如矩形的方向和大小,以及预测四边形的顶点坐标。东它对文本检测领域产生了影响高度简化的管道和效率。

图3-3:基于锚/ ROI合并的现有方法的高级示意图

最著名的是它的速度,我们将在后面的部分,重点是其效率。其他方法适用于R-CNN的两阶段目标检测框架,其中第二阶段根据获得的特征校正定位结果按兴趣区域(ROI)汇总。旋转区域提案网络生成旋转区域提案,为了适合任意方向的文本,轴对齐的矩形。同样,R2CNN使用区域不同大小的提案。在FEN中,加权总和使用了不同大小的区域建议。最后通过利用文本得分来预测4种不同大小的池。前述方法简化了整体管道,大大提高了效率。但是,面对不规则形状时,性能仍然有限文字和长文字。因此,重新引入了基于深度学习的多阶段方法。如下所述,这些方法使用神经网络来预测局部属性,以及用于重建文本实例的后处理步骤。与早期的多阶段方法相比,它们更加依赖在神经网络上并且具有较短的管道。

3.1.2 分解子文本

文本检测与常规对象检测之间的主要区别在于,文本在整体上是同质的,并且显示局部性,而常规对象检测则不是。通过同质性和局部性,我们指的是文本实例的任何部分仍然是文本的属性。人类不必看到整个文本实例就知道它属于某些文本。这种属性为文本检测方法的新分支奠定了基石,该方法仅预测子文本组件,然后将其组合为文本实例。在这一部分中,我们将以文本检测的粒度为视角。预测粒度有两个主要级别,文本实例级别和子文本级别。如上一节所述,文本实例级方法遵循常规对象检测的标准例程。提案区域网络会为可能的文本实例的本地化产生初步猜测。可选地,然后一些方法使用细化部分来过滤误报并纠正定位。

相反,子文本级别检测方法仅预测合并以创建文本实例。这类文字主要包括像素级和组件级。在像素级方法中,端到端全卷积神经网络学习生成密集的预测图,指示每个图是否原始图像中的像素属于任何文本实例或不。然后,后处理方法将像素分组在一起取决于哪些像素属于同一文本实例。由于文本可以出现在群集中,因此可以预测像素彼此连接,像素级方法的核心是将文本实例彼此分开。像素链接学会预测两个相邻像素是否属于通过向每个文本实例添加链接预测来将其添加到同一文本实例像素。边界学习方法将每个像素投射到三个类别:文本,边框和背景,假设该边框可以

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[412638],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。