基于重要性感知的无人驾驶汽车语义分割外文翻译资料

 2022-08-09 20:36:59

英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料


IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS

基于重要性感知的无人驾驶汽车语义分割

Manuscript received July 11, 2017; revised December 7, 2017; accepted January 25, 2018. This work was supported in part by the NSF of China under Grant U1713208, Grant 61602246 and Grant 61472187, in part by the 973 Program under Grant 2014CB349303, in part by the Program for Changjiang Scholars, in part by the NSF of Jiangsu Province under Grant BK20171430 and Grant BK20170857, and in part by the Six Talent Peak Project of Jiangsu Province of China under Grant DZXX-027. The Associate Editor for this paper was D. Fernandez-Llorca. (Corresponding authors: Chen Gong; Jian Yang.)

The authors are with the Key Laboratory of Intelligent Perception and Systems for High-Dimensional Information of Ministry of Education, School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China (e-mail: bikechen@njust.edu.cn; chen.gong@njust.edu.cn; csjyang@njust.edu.cn). Color versions of one or more of the figures in this paper are available online at http://ieeexplore.ieee.org. Digital Object Identifier 10.1109/TITS.2018.2801309

摘 要: 语义分割(Semantic Segmentation)是将一幅图像分成几个连贯的语义上有意义的部分,并将每个部分分成一个预定的类别。在本文中,我们认为现有的语义分割方法不能可靠地应用于自主驾驶系统,因为它们忽略了不同类别的安全驾驶的不同重要程度。例如,场景中的行人、汽车和骑自行车的人在开车时比天空和建筑物更重要,所以他们的分割应该尽可能精确。为了整合各种对象类所拥有的重要性信息,本文设计了一个“重要性感知损失”(IAL),它具体强调了自主驾驶的关键对象。深度神经网络在分层结构下运行,具有不同重要性的类位于不同的级别,因此它们被赋予不同的权重。此外,我们还导出了深度神经网络的前向和后向的传播规则,并将其应用于四种典型的深层神经网络,以实现智能驾驶系统中的智能驾驶。在CamVid和Cityscapes数据集上的实验表明,通过使用所提出的损失函数,现有的深度学习模型,包括FCN、SegNet、ENet和ERFNet,能够一致地在预定义的安全驾驶重要类别上获得改进的分割结果。

关键词: 语义分割、重要性感知缺失、深度学习、自动驾驶。

导言

语义分割(Semantic Segmentation)将图像分割成表示不同对象的不同有意义的部分,为场景分类、人机交互、视觉问答等图像分析提供了一个强大而实用的工具。近年来,自主驾驶系统引起了人们的广泛关注,其中SS在检测障碍物和了解交通状况方面发挥了重要作用[1],[2]。显然,自动驾驶系统的高分割精度将使系统全面了解驾驶环境,从而大大提高驾驶安全性。

图1 基于Cityscapes数据集的 ENet和Enet IAL的分割结果。对于重要的类(例如,卡车、公共汽车和道路),我们看到由ENet IAL分割的区域比ENet更加连贯和完整。对于最后一行显示的人员类别,ENet的结果也比ENet IAL差得多。最佳彩色表示。

然而,我们认为与自动驾驶系统[3]相关的语义分割与传统的语义分割问题有很大不同。对于传统的语义分割,图像中出现的所有对象都是同等重要的,并且应该尽可能精确地从图像中分割出所有对象。也就是说,当我们建立相应的语义分割模型时,所有的图像像素拥有相同的权重。相比之下,真实交通场景中的物体对于自主车辆来说并不同等重要。例如,自动驾驶系统应该更多地关注与安全驾驶密切相关的物体,而不是那些不常用于车辆控制的物体。换句话说,自治车辆中的语义分割算法应该高精度地分割主要障碍和潜在驾驶风险(例如,行人、骑自行车的人、其他车辆和交通标志),同时减少对不太重要的对象(例如,天空、植被和远离道路的建筑物)的关注。

从这个意义上说,现有的语义分割方法不适合处理自主驾驶问题,因为它们没有考虑对象的重要性。例如,传统的基于手动分类特征的结果[4],[5]和最近基于深度卷积神经网络的方法[6]-[8]平等地对待所有出现的类。结果,如上所述,它们在分割重要对象时会产生非常低的精度。如图1所示,我们观察到对于诸如卡车、公共汽车,和道路,由原始的ENet模型[8]产生的分割结果是不完整的。更严重的是,我们看到,在汽车前面的人(见最后一排)已经完全被ENet忽略了,这可能在实际情况下,会对行人的生命构成很大的威胁。

从上面的解释,我们看到现有的方法体系不能为自动驾驶提供可靠的分割结果。这是因为它们都采用交叉熵损失函数进行模型训练,该函数同等地评估由所有图像像素引起的误差,而不关注重要的对象。因此,这些传统的语义分割方法不能为不同的对象分配不同的权重。因此,应该为自动驾驶的应用专门设计一个新颖的重要性感知损失函数。为此,我们引入了等级重要性的概念,行人、车辆和道路上的其他物体对于驾驶来说比其他等级更重要,例如天空和远离道路的偏远建筑。基于这一概念,我们设计了一种新的损失函数,称为“重要性感知损失”(IAL),它能够比不太重要的目标更强调精确分割。从图1的最后一列,我们注意到,如果我们提出的IAL被合并(即,“ENet IAL”),由ENet IAL产生的分割误差可以被纠正。可以很容易地发现,ENet IAL不仅可以在诸如卡车、公共汽车和道路的大目标上产生非常紧凑的分割结果,而且可以成功地拾取像人这样的小目标。

图2 用等级结构说明我们的重要性感知缺失。级别1到级别3表示不同组中类的重要性级别,组越重要,级别越高。lG1、lG2和lG3分别是通过交叉熵损失计算的三组的损失值。此外,wG1、wG2和wG3是相应消除阶级不平衡的权重。术语ft(X) alpha; (t = 1,2)被称为重要性因子。

[10]的启发,我们提出了一种新颖的具有分层结构的损失函数,如图2所示。在这种结构中,具有不同重要程度的对象位于不同的级别,并且一个对象越重要,它所代表的级别越高。因此,重要的对象比不重要的对象处于更高的级别,因此它们被乘以更大的重要因素来计算最终损失。为了验证我们提出的损失函数,我们用我们提出的重要性感知损失代替了代表性深度学习方法[6]-[8][11]使用的交叉熵损失。两个典型的用于自动驾驶的数据集包括CamVid[12]和Cityscapes[13]坚定地证明了,对于重要的对象,可以比现有方法更精确地分割。

这篇论文是我们以前的论文[14]的扩展版本。具体而言,我们对所提出的算法进行了更多的实证研究,包括研究具有均匀类权重的交叉熵损失的模型,对比最新的ERFNet模型,探索对重要调整参数的敏感性分析,进行基于交叉熵损失的模型和相应的基于重要性感知损失的模型之间的训练时间的比较。

符号:为了便于下面的描述,我们首先定义一些符号。语义分割算法的最终输出由张量X isin; RCtimes;Himgtimes;Wimg表示,其中它的高度和宽度对应于Himgtimes;Wimg输入图像,它的深度以地面真相的一次编码为目标,并指示每个Himgtimes;Wimg像素的类别。这里,一热编码用于类别指示,其具有[0,hellip; , 0, 1, 0,hellip; , 0]T的形式,对应于正确标签的元素是1。此外,图像的分割基础真值由矩阵Y isin; NHimgtimes;Wimg表示,其中第(I,j)个元素Yi,j isin; {1, 2,hellip; ,C}表示第(I,j)个像素的相应标记。这里的C是驾驶环境中的预定义类的总数。

总结:本文的其余部分组织如下。第2节回顾了一些相关的工作。之后,我们在第3节描述了所提出的损失函数以及与现有交叉熵损失的关系。在第4节中,我们推导了我们提出的损失函数的前向-后向传播规则。在第5节中,我们提供了在典型的交通数据集上的实验结果,包括CamVid和Cityscapes。本节还介绍了参数的灵敏度分析。最后,论文在第6节结束。

相关工作

语义分割作为理解场景的重要工具,已经被深入研究了很长时间。例如,一些传统方法侧重于设计强大的类似人工分类的方法,并使用随机森林方法[4],[15],[16],均值漂移技术[17],JSEG [18],基于图形的方法[19],和统计区域合并方法[20]基于升压的技术[21]-[23]用于预测图像像素的类别。具体地说,它们综合地结合了不同种类的特征,例如运动点云、基于外观的描述符和深度信息[24]来实现连贯的空间分割。此外,王和王[25]对一些有代表性的图像分割方法进行了详细的分析和评价。为了提高分割精度,已经开发了一些后处理策略来改善初始分割结果。例如,基于条件随机场(CRF)的技术[5],[21],[26]被用于抑制由分类器输出的每像素预测噪声。从诸如超像素的中级线索之间的成对关系,以及基于低级像素的一元和成对关系中,通用报告格式模型的能量函数通常结合了这些的结果。

随着深度学习的迅速发展,各种深度神经网络已经被应用到语义分割中,并取得了最先进的性能。[27]-[29]等作品利用离散余弦神经网络提取的特征进行类别预测。然而,这些工作中的特征提取和像素分类是孤立的。为了使空间预测成为端到端的过程,龙等人[6]通过用卷积层代替完全连接层,将分类用的离散余弦神经网络转换成空间逐像素预测。此外,为了改善空间细节,龙等人[6]将粗略和高级信息融合到精细和低级信息,这有助于有希望的结果。基于[6],提出了许多其他方法[30]-[33],其进一步结合了基于通用报告格式的多尺度操作或后处理。分割的另一个重要架构是基于编码器-解码器的结构。SegNet [7]和其他一些作品如[34]-[36]属于这一类型。对于SegNet,Vijay Badrinarayanan和Cipolla [7]使用最大汇集指数来执行非线性上采样,这消除了学习上采样的需要。这里,最大池索引被计算并存储在编码器部分的最大池步骤中。然后,用可训练的滤波器对上采样的地图进行卷积,以产生密集的逐像素预测。

最近,有一些尝试,以区分不同的图像像素的语义分割任务。例如,布洛等人的[37]自适应地重新加权每个像素的贡献,以解决长尾分布的问题,这意味着很少的对象类别包含大部分数据,并因此导致有偏差的分类结果。李等[38]考虑到不同像素具有不同的难度等级,并提出了一种用于语义分割的难度感知神经网络。在他们的网络中,早期的子模型被训练来处理容易和自信的区域,而后期的子模型集中在更难和模糊的区域。然而,这两项工作与我们关注智能车辆中像素重要性的方法有很大不同。

最近,已经做了几项工作来将语义分割应用于自动驾驶。Pohlen等人[39]开发了一个深层神经网络,用于分割街道场景中的主要对象类别,并基于 Cityscapes[13]上取得了最先进的结果。为了进一步提高效率和实现实时分割,Paszke等人[8]特别设计了一种新的称为ENet的深层神经网络体系结构,它可以被视为ResNet [40]的一个特例。类似地,Treml等人[41]也为自动驾驶汽车中的嵌入式设备设计了一个新网络。他们的体系结构由ELU激活函数、一个类似挤压网的编码器、并行扩展卷积和一个带有类似SharpMask的细化模块的解码器组成。最近,Romera等人[11],[42]提出了一种新的高效和有效的网络,它类似于ENet。该方法采用了专门设计的非瓶颈1D层和反褶积技术,显著提高了其性能。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[238570],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。