英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料
CNN在音频和图像情感识别中的研究
摘要
在这篇论文中,我们将会对比和展示卷积神经网络(CNN)在图像识别和声音情绪识别中的表现。模式识别中的特征提取和选择是一个很重要的因素而且经常被讨论。而且,如图像和声音的二维信号很难用传统模型如SVM来建模。CNN的表征二维信号的能力十分卓越。而且CNN可以自适应地提取特征以消除对人类主观性或经验的依赖。它模仿了视觉皮层细胞中局部过滤的作用,以挖掘自然维空间中的局部相关性。在这项工作中,对于语音中的图像识别和情感识别问题,使用CNN和SVM作为比较识别效果的基准。为了支持图像识别,已经对SVM中的不同内核功能进行了实验,其最佳精度为94.17%。但是,使用CNN的精度为95.5%(7291张图片用于训练,2007张图片用于测试)并且耗时更短。在语音情绪识别中,CNN的精度为97.6%,相当于基线模型的55.5%(4000条语音用于训练,1500条用于验证,500条用于测试)。试验结果表明,CNN可以有效地提取特征,而且它对二维信号的模拟能力也十分显著。
关键词:卷积神经网络,语音情绪识别,图像识别
- 简介
图像和声音是人们获取信息的最直接且最自然的媒介。如果这项技能可以在机器人中运用,将会大大提高机器的智慧。在实践中,在图像识别和语音识别中,我们会遇到特征选取的问题。通常,图像特征中会包括颜色特征,质地特征,形状特征,空间关系特征。有时为了获得更好的最终结果,会将这些特征合理地整合在一起。
选取和整合这些特征需要人类经验和主观判断,因此在这些特征组上的结果不够好。因此,为了更好地识别情绪或图片,我们会额外加入很多的特征。在语音情绪识别中,为了识别声音里的情绪,会加入语言学信息或情绪点信息,例如上下文,关键字等。典型的情况下,这会增加识别率。但是,有时也会有声音信息和文本信息相互影响的现象。并且,情绪是智慧的一个很重要的方面。我们想要让系统分辨情绪的问题让学者们求助于我们自身的情绪识别系统。仿生学,生物学已用于检测语音中的情绪。他们运用我们人类耳朵的生物结构给我们人耳感知的特点来产生合适的特征,例如MFCC,里昂耳蜗模型,或者改进模型以增强识别表现。这些方法更为人们所接收和信任因为他们更好理解。由于更充分地考虑了人耳的物理结构,模仿了生理活动,因此该方法构建的系统的适应性和稳定性优于一般系统。如此大的特征集导致使用降维方法,例如PCA,Fisher等,但最终结果并不令人满意。
对于多类情感语音信号,没有分类工具特别适合于多类分类。 因此,优化的分类工具和完善的分类策略可以提高情绪识别的准确性。 但是实验表明,这种策略不够强大,而且改进的空间有限。
在本次研究中,图像识别和语音情绪识别中的传统模型SVM被用作基准系统。
CNN是一个专门设计的多层感知器,可识别二维形状。因此,保留在波形点中的维度信息可以被CNN有效地利用。CNN模型由于具有自适应特征提取的特性,因此被用于图像识别和语音信号的情感识别。在情感语音识别中,基于语音信号两个经典特征的测试,我们建议直接使用波形点来表征情感语音信号。它既不会丢失信息,又可以利用波形之间的自然相关信息识别情绪。在图像识别中,SVM和CNN模型被用作图像识别。而且我们会在PCA之前和之后对比识别结果。
这篇论文剩下的部分将这样组织:在第二部分,我们展示传统模型SVM和最新测试模型CNN;实验和结果在第三部分提供;最后,我们会在第四部分总结结论。
- 传统模型和CNN
图1展示了模式识别的流程图。特征将会抽象地展示信号。分类器将映射特征和输出。所以模型的选择会严重影响输出。
图1. 模式识别系统
- SVM
本次实验所选择的基准模型是SVM,它在机器学习及模式识别中的许多例子中表现得都很好。在原本维度很难分辨的输入向量将会被映射到高空间来分辨。核函数类型为线性核,多项式核,S形核,RBF(径向基函数)。SVM被设计用于两种类型的分类,但是它的多重分类性能在实际问题上表现很差。
当选择了C-SVC模型,决定方程是:
(1)
其中,n是支持向量的个数,是核方程,而b是一个常数。
当选择了RBF核方程,则核方程是:
(2)
因此在这个问题中的决定方程是:
(3)
类似地,线性核是:
(4)
多项式核是:
(5)
当选择核方程来解决实际问题时,常用的方式是这样的:首先用一个专家的先验知识来预选择核,然后用交叉验证方法,即进行核功能选择并分别尝试不同的内核归纳误差最小的内核将是最佳内核。
- CNN
卷积神经网络是一个多层的神经网络,每一层都由多个二维平面组成,每个平面由多个单独的神经元组成。LeNet-5的结构如图2所示。
图2. LeNet-5的结构
稀疏,卷积层和最大池化是LeNet模型的关键。从图2可以看出,LeNet5中有5个层:2个卷积层,2个子采样层和1个完全连接的MLP层。交替的卷积层和最大池层由较低的层组成。但是,上层是完全连接的传统MLP(隐藏层 Logistic回归)。
B.1 稀疏链接
稀疏连接的示意图如图3所示。第N层的输入是第(N-1)层的子集。通过加强相邻层中神经元之间的局部连接,CNN可以利用空间局部相关性。这种结构类似于本地滤波器,该滤波器能够对输入模式产生最强的响应。但是,如果上图中的层数增加,则将导致响应较大空间的非线性滤波。
图3. 稀疏连接的示意图
- 图像识别和语音中的情绪识别
在模式识别的角度,图像识别和语音中的情绪识别可以被抽象进入如图4所示的表中。
图4. 图像识别的四个步骤
具体到图像识别和语音中的情绪识别,可以总结其过程在图5中。
图5. 语音情绪识别的传统方法
根据图4和图5所示,他们的方法框架很相似。它们都经过特征提取和筛选,这些步骤对于整个识别至关重要。另一个关键问题是模型重构信号的能力。本文使用的CNN能够同时解决两个关键问题。详细信息将在第三部分中显示。
- 实验
- 数据准备
所有图像实验均在USPS数据集(美国邮政手写数字数据集)上进行。 它是机器学习、人工智能和数据挖掘中经常使用的数据集。该数据集(缩放为[-1:1]而不是[0:2])也出现在《统计学习的要素》一书中。数据集包含7291张用于训练的图片和2007张用于测试的图片。
所有的语音实验都是在中国社会科学院(CASS)记录的情感语音数据库中进行的。其中共有四位发言人,包括两名女性和两名男性,包括五种情绪,它们分别是愤怒,恐惧,快乐,悲伤和惊讶。每个情感对应1200种不同的发音,总共有1200 * 5种发音。信号以16kHz采样并以单声道转录,每个采样点用16位表示,话语间隔为一到两秒,以保留情绪中的突出部分。
- 实验环境
在语音中的情绪识别中,CNN按照如表1所示来设置。表1可以按照以下方法来理解或解释。
第0层(卷积层 池化层):波形文件被读取并加上边框。然后,通过加边框而获得的序列被重新调整至(100,100)。CNN网络是这样设置的:波形=(100,100),池化大小=(2,2),滤波器形状=(5,5),滤波将波形大小减小至(100-5 1,100-5 1)=(96,96),最大池化将其进一步减小至(96/2,96/2)=(48,48)。
第1层(卷积层 池化层):第0层的输出是第1层的输入。波形=(48,48),滤波器形状=(5,5),池化大小=(2,2)。用和第0层一样的计算方法,滤波将波形大小减小至(48-5 1,48-5 1)=(44,44),最大池化将其进一步减小至(44/2,44/2)=(22,22)。
表1. 语音情绪识别中CNN的设置
层 |
输入 |
输入等级 |
100*100 |
池化大小 |
200个特征图,卷积窗口大小:5*5, 池化窗口大小:2*2 |
全连接层1 |
隐藏的神经元:500 |
全连接层2 |
隐藏的神经元:500 |
输出层 |
6个分类输出 |
第2层(隐藏层):隐藏层是全连接的,它在2D形状矩阵上工作。它像这样设置:输入=50*22*22,输出=500。
第3层(逻辑回归层):它将全连接的S形层的值分类。第3层的输入是第2层的输出,所以输入=500,输出=5。第3层的输出是预测标签。
图像识别中运用的的CNN根据表2设置。
表2. 图像识别中CNN的设置
层 |
输入 |
输入等级 |
16*16 |
池化大小 |
200个特征图,卷积窗大小:3*3 池化窗口大小:2*2 |
全连接层1 |
隐藏的神经元:50 |
全连接层2 |
隐藏的神经元:50 |
输出层 |
10个分类输出 |
基线模型SVM适用于不同的核类型:线性核,多项式核,S形核,RBF(径向基函数)。对于不同的内核,结果是不同的,它们显示在C部分中。基线系统应用了网格参数优化。我们在十倍交叉验证中挑选出了最佳模型参数,并在测试集中使用。在参数优化过程中,建模能力的变化很大。我们获得的参数特别适用于训练数据。我们希望有一个具有学习能力的模型,并且该模型在任何训练数据上都能很好地发挥作用。因此,在该实验中将CNN用于对比。
- 识别结果
对于图像识别,基准模型SVM和最新运用的模型CNN在表3和表4中显示。
表3. SVM和CNN的图像识别结果
内核类型 |
结果(%) |
|
SVM |
CNN |
|
线性内核 |
92.53 |
95.5a |
多项式内核 |
92.87 |
|
S型内核 |
87.79 |
|
RBF |
94.17 |
表4. SVM和CNN的语音情绪识别结果
特征类型 |
结果(%) |
|
CNN |
SVM |
|
MFCC |
36.6 |
46.6 |
韵律特征 |
20.1 |
|
波形点 |
97.6 |
从上面的表3,使用RBF内核方程的基准模型SVM是最好的。但是,它的结果是94.17%而且不比CNN的精度95.5%高。而且,CNN避免了对特征集的手动选择过程,因此结果在实际中更为通用。
对于语音中的情绪识别,结果更加惊人。从表中可以看出,依赖于自适应性模型的直接用波形点作为输入的CNN的结果惊人地好(精度:97.6%)。这符合神经网络中仿生学的特征:根据现象构造连接并无需人工决定即可自行学习连接权重,换句话说,神经网络而不是我们将决定他们自己看到的内容。这也解释了为什么MFCC和韵律特征在识别情绪方面无效。 如果我们无法获得能够通过先验知识或实验来表征语音信号中的情绪的特征,而直接利用现有特征无论其对情绪的表征能力如何,那么很难说这些特征可以有效地识别情绪。
- 结论
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[236735],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。