简易网络数据传输与控制系统外文翻译资料

 2022-08-25 21:34:06

外文原版

Introduction

The design of efficient indexing algorithms to facilitate the retrieval of relevant information is vital to provide easy access to multimedia documents. Until recently, indexing audio-specific documents such as radio broadcast news or the audio channel of video materials mostly consisted of running automatic speech recognizers (ASRs) on the audio channel in order to extract syntactic or higher level information. Text-based information retrieval approaches were then applied to the transcription issued from speech recognition.

The transcription task alone represented one of the main challenges of speech processing during the past decade (see the DARPA workshop proceedings at Darpa speech recognition evaluation workshop) and no specific effort was dedicated to other information embedded in the audio channel. Progress made in broadcast news transcription shifts the focus to a new task, denoted lsquo;lsquo;Rich Transcriptionrsquo;rsquo;, where syntactic information is only one element among various types of information.

At the first level, acoustic-based information like speaker turns, the number of speakers, speaker gender, speaker identity, other sounds (music, laughs) as well as speech bandwidth or characteristics (studio quality or telephone speech, clean speech or speech over music) can be extracted and added to syntactic information.

At the second level, information directly linked to the spontaneous nature of speech, like disfluencies (hesitations, repetitions, etc.) or emotion is also relevant for rich transcription. On a higher level, linguistic or pragmatic information such as named entity or topic extraction for instance is particularly interesting for seamless navigation or multimedia information retrieval.

Finally, some types of information extraction relevant to document structure do not fall exactly into one category; for example, the detection of sentence boundaries can be based on acoustic cues but also on linguistic ones.
This paper concerns information extraction on the first level described above. It is mainly dedicated to the detection of speaker information, such as speaker turns, speaker gender, and speaker identity. These speaker-related tasks correspond to speaker segmentation and clustering, also denoted speaker diarization in the NIST rich transcription (RT) evaluation campaign terminology.
The speaker diarization task consists of segmenting a conversation involving multiple speakers into homogeneous parts which contain the voice of only one speaker, and grouping together all the segments that correspond to the same speaker. The first part of the process is also-called speaker change detection while the second one is known as the clustering process. Generally, no prior information is available regarding the number of speakers involved or their identities. Estimating the number of speakers is one of the main difficulties for the speaker diarization task. To summarize, this task consists of:

  • finding the speaker turns,
  • grouping the speaker-homogeneous segments into clusters,
  • estimating the number of speakers involved in the document.

Classical approaches for speaker diarization deal with these three points successively: first finding the speaker turns using by example the symmetric Kullback Leibler (KL2), the generalized likelihood ratio (GLR), or the Bayesian information criterion (BIC) distance approaches, then grouping the segments during a hierarchical clustering phase, and finally estimating the number of speakers a posteriori. If this strategy presents some advantages like dealing with quite long and pure segments for the clustering, it also has some drawbacks. For example, knowledge issued from the clustering (like speaker-voice models) could be very useful to estimate segment boundaries as well as to facilitate the detection of other speakers. Contrasting with this step-by-step strategy, an integrated approach, for which the three steps involved in speaker diarization are performed simultaneously, uses all the information currently available for each of the subtasks.

The main disadvantage of the integrated approach lies in the need to learn robust speaker models using very short segments (rather than a cluster of segments as in classical approaches), even though the speaker models get refined along the process. Mixed strategies are also proposed, where classical step-by-step segmentation and clustering are first applied and then refined using a lsquo;lsquo;re-segmentationrsquo;rsquo; process during which the segment boundaries, the segment clustering and sometimes the number of speakers are challenged jointly.
In addition to the intrinsic speaker diarization subtasks presented above (denoted p1 in the list below), various problems need to be solved in order to segment an audio document into speakers, depending on the environment or the nature of the document:
To identify the speaker turns and the speaker clusters, and to estimate the number of speakers involved in the document, without any a priori information (p1);
To be able to process speech documents as well as documents containing music, silence, and other sounds (p2);
To be able to process spontaneous speech with overlapping voices of speakers, disfluencies, etc.(p3).
The NIST 02 speaker recognition evaluation provided an overview of the performance that can be obtained for:
Conversational telephone speech, involving two speakers and a single acoustic class of signals;
Broadcast news data which often includes various qualities or types of signal (such as studio/telephone speech, music, speech over music, etc.);
Meeting room data in which speech is more spontaneous than in the previous cases, and presents several distortions due to distant microphones (e.g., table microphone) and noisy environment.
Table 1 shows the various classes of probl

剩余内容已隐藏,支付完成后下载完整资料


摘要

本文总结了LIA和CLIPS实验室对2003年春季NIST转录评估活动期间的广播新闻联合进行的语音分割与聚集研究结果。语音分割与聚集任务包括将一段对话分割成同质的部分,而这些同质部分又将被归类到语音类别中。

关于怎样进行语音分割与聚集,本文将介绍两种方法,并对其进行比较。第一种方法依赖于传统的分两步走的语音分割与聚集策略,而这种策略是在重聚过程后对语音顺序进行检测的基础之上形成的;而第二种方法是一种综合策略,在整个过程中,同时将分段边界和与分段相连的语音分离出来。这两种方法都将被用来探讨分段与聚集结果融合在一起的多种策略。

关键词:语音检索,语音分割与聚集,综合方法,逐步方法

1.简介

是否能设计出可以有效促进相关信息检索的标引算法,对于获得多媒体文档至关重要。截至目前,像无线广播新闻或者带有视频材料的音频频道之类的音频专用检索文档多数由在音频频道上且能够自动运行的语音识别器组成,而这种语音识别器可将句法信息或是更高层次的信息检索出来。基于文本的信息检索方法应用于语音识别转录。

转录工作是过去十年中语音处理所面临的一大挑战,而对于音频频道中的其他信息所做的努力还远远不够。广播新闻转录取得了进步,于是人们将注意力转到了新的领域,即“丰富转录” ,而丰富转录中的句法信息是多种信息中的唯一要素。

在第一层次,基于声音的信息,例如:说话者顺序、说话者数,说话者性别,说话者身份,或是其他的声源(音乐、笑声)以及声音带宽或者声音特质(演播室质量、电话语音、原始语音或是音乐语音)均可被分离出来并被加入到句法信息中。

在第二层次,与语音天然特性有直接联系的信息,如说话不流利(停顿、重复等)或是语音流露出的感情与丰富转录也是相关的。在更高层次上,像易命名的实体或者主题提取等的语言学信息和语用学信息对于准确无误的导航以及多媒体信息检索具有重要意义。最后,某些与文件结构相关的信息提取种类无法完全划分到一个类别;举个例子来说,句子边界的检测可以基于听觉线索,也可以基于语言线索。

本文主要探讨第一层次的信息提取,主要致力于语音信息的检测,如说话者顺序,说话者性别,说话者身份。与语音有关的任务便是语音分割与聚类,即NIST丰富转录评估活动中所称的语者分割扬声器。

语音分割与聚类包括两部分,第一部分是将包含多个语音的一段对话分割成几个同质部分,而每个部分只含有一个语音,第二部分是将含有同一个语音的分段重新组合在一起。第一部分也叫做语音变化检测,第二部分叫做集聚过程。通常情况下,关于语音人数和语音身份,一般没有先验信息提供。因此,判断有多少语音,也是语音分割与集聚工作的一大难题。

总的来讲,这项工作包括以下几个部分:

  • 弄清楚语音顺序;
  • 将含有同一个语音的语音分段集合成组;
  • 判断文档中涉及的语音人数。

传统的语音分割与集聚方法分为连续进行的三个步骤:

第一步,借助广义似然比以及贝叶斯信息准则测距方法弄清楚语音顺序;

第二步,在层次聚类阶段,将语音分段分组;

最后一步,判断后验说话者人数。

如果这种方法具有可以处理集聚过程中又长有单一的语音分段的优点的话,那么也会存在一些缺点,例如,通过集聚得到的信息(比如语音声音模型)可能非常有助于评估分段边界,也有助于对其他语音的检测。与这种逐步进行的策略截然相反的是,一种将这三个步骤同时进行的综合方法,将会利用当前所有可用的信息完成每一个子任务。

尽管在整个过程中语音模型已经得到了改善,但这种综合方法还存在一大缺点,那就是需要了解语音鲁棒模型,这种模型中的语音分段非常短促,而传统方法所使用的是语音分段群。有人提出可以采用混合方法,先是进行传统方法中的逐步分割与集聚步骤,然后再进行“重新分割”,在此过程,将面临着解决分段边界、分段集群、以及语音人数等方面的综合挑战。

除了上述固有的语音分割与集聚子任务(见下列表中的p1),考虑到环境因素及文档特点,为了将音频文档分割成语音,还需解决多个问题:

  • 在无任何先验信息的情况下,判断语音顺序,语音分组以及文档中的语音人数(p1)。
  • 能够处理语音文档,以及音乐文档、无声文档或是其他声音文档(P2);
  • 能够处理带有语音重叠语音,不流利语音的即时语音文档(p3)。

NISTrsquo; 02语音识别评估概述了可为以下几项而获得的表现:

  • 含有两个语音的会话式电话语音,以及单一的声学类信号;
  • 通常包括不同质量不同种类信号(如:演播室/电话语音,音乐,音乐中的语音)的广播新闻数据;
  • 会议室语音数据--这些数据更加自发化,有时会因为话筒距离较远(如台式话筒)或者环境较为嘈杂而存在失真的情况。

表一显示了在每种情况下(p1,p2,p3)将会遇到的多类问题。这些任务变得越来越难解决,显而易见,是由于其新颖性(后两项任务被引进了2002年的评估活动),不过主要是因为上述提到的问题的不断累积。

自从2001年,ELISA财团,CLIPS以及 LIA的两位成员共同参与了每年一度的进行语音分割与聚集任务的评估活动。由于语音分割与聚集可能会对视频的检索与分割有一定的帮助,CLIPS还参与了TREC VIDEO 最后三项评估活动的实验。

ELISA 财团最初由ENST, EPFL, IDIAP, IRISA and LIA于1998年创建,其宗旨是为了促进成员间的科学交流,创建一个共同而先进的语音验证体系,并参与每年一度的NIST语音识别评估活动。多年来,ELISA财团的结构发生了变化,而今天,CLIPS, DDL, ENST, IRISA, LIA, LIUM以及弗里堡大学已成为了伙伴关系。自从1998年,ELISA财团的成员就参与了NIST关于语音验证的评估活动,

本文概述了通过调查两个主要议题而进行的长期合作所取得的成果。首先,传统的逐步进行方法和更加新颖的综合方法的相对优势正处于讨论阶段(这部分工作可能与上面提到的p1点相关:语音分割与聚集的内在任务)。发挥两种方法优势的几个融合策略已被提出。本文提出的第二个议题注重将被分割的音频文件特性。(本议题即 “p2”)这部分工作致力于广播新闻数据的语音分割与聚集任务。在进行语音分割与聚集之前采用声音宏观分割(为了将音频文件划分成按同样带宽或同种性别分类的几部分)是否具有好处还在讨论之中。

本文结构如下:第二部分相继介绍了宏观声音分割过程和两种语音分割与集聚方法。第三部分集中介绍了两种方法的融合。第四部分介绍了多种体系的performance,并对其进行讨论。来自于NIST-RT03S发展评估语料库的所有实验报告和数据(第五部分中来自于NIST-RT04S回忆数据评估的一些 结果除外(NIST-RT04S,2004;Fredouille et al.,2004))。第五部分介绍了正在进行的关于回忆数据以及将先验信息统一到语音分割与集聚体系中的工作。最后一部分,进行总结陈述。

表一:

任务

电话

广播新闻

会议

分割错误率

5.7

26.4

30.1

已解决的问题

p1

p1 p2

p1 p2 p3

NIST02语音识别评估中语音分割与聚集任务得到的最好结果

2.语音分割与集聚方法:

本文提出了两种不同的语音分割与聚集体系并将在以下几章进行阐述。这两种体系分别由ELISA财团框架内的CLIPS实验室和LIA实验室开发。CLIPS体系依靠传统的逐步进行策略,包括基于距离的探测器策略以及分层聚类,在下文将用逐步进行策略表示。LIA体系是一种综合策略,基于HMM,在下文用综合策略表示。

如图一所示,这两种体系均将宏观声音分割作为初步阶段。在声音分割过程中,根据基于性别以及宽/窄带测量情况的不同,信号首先被分为四个声音类别。然后,CLIPS 和LIA语音分割与聚集体系分别被用于每一个独立的声音类别。最后,通过重新分割阶段,将这四种分割结果进行合并和巩固。对每一个声音类别分别使用语音分割与聚集体系表明每一个类别只涉及一个特定的语音。然而,重新分割程序允许询问语音与与其对应的声音类别之间的关系。

在探究将两种体系结合起来的方法之前,语音分割与聚集方法与声音分割方法是分别开发出来的。因此,尽管像声音特征以及学习方法等的设置不同,但它们都是通过在共同语料库基础上的实验得来的。

图1 语音分割集成战略概览

2.1.宏观声音分段

将音频信号分割成声音类别主要是为了帮助ASR体系转录广播新闻中的特殊语段 (Hain and Woodland, 1998; Woodland,2002; Gauvain et al., 2002)。事实上,声音分割的首要目标之一便是为ASR体系提供一种声音事件识别方法以删除非语音信号(沉默,音乐, 商业广告),并将ASR声音模式应用到一些特殊的声音环境中,如音乐中的语音,电话语音或者语音性别。有许多文章致力于探究这个特殊的议题,并致力于评估ASR任务环境中的声音分割 。然而,尽管声音分割在文献中很少被讨论到,但它对于其它与广播新闻语料相关的任务或许有些用处。 从这个意义上来说,声音分割的目标之一便是探究当被用作语音分割与聚集的先验分割模式时,它所产生怎样的影响。

为了避免音乐和沉默部分自动被当作新的语音,语音/非语音检测对于语音分割与聚集是有帮助的。而在 NIST-RT环境评估中,尤其如此,这种评估方法,在记录语音分割与聚集中时,也会考虑到丢失的或是错误的语音警告错误情况。

而且,可以通过设计声音分割系统以提供更好的分类方法,例如,性别和频率带检测可以在分割与聚集过程中引入先验信息。在本文中,先验声音分割将在三个不同的层次上进行:

  • 语音/非语音。
  • 纯粹语音/音乐中的语音/电话语音(窄带)。
  • 男性/女性语音。

2.1.1逐级方法

此体系是基于分三步连续进行的逐级分割方法,如图二所示:

图2 分层分段声

第一步,通过两种模式进行语音/非语音分割。第一种模式,Mixs, 呈现了所有的语音情况,而第二种模式,NS,只呈现了非语音情况。分割过程主要依赖于逐帧最佳模式搜索。然后,运用一组构词法则集合所有的帧,并将每一个部分做上标注。通过固定语音和非语音分段色最小长度,这些法则主要是为了限制每个语音分段的长度。这个方法是进行威特比解码的首选方法,而在语音分段中,却会将非语音分段错误分类。

第二步,基于纯粹语音(S模式)、音乐语音(SM模式)和电话语音(T模式)三种分类的语音分割,只能在前一个分割阶段检测过的语音分段上进行。这个阶段涉及到的所有模式均是男女分开的。此分割过程是一个应用于遍历性HMM威特比解码过程,包括三种模式(S模式,T模式,和SM模式)。人们是在1996HUB4广播新闻语料库中了解到这种转录可能性的。

最后一个步骤是性别检测。根据上个步骤所做的标注,借助基于性别分类以及声音分类的模式,识别每段语音是女性语音还是男性语音。GT-FE模式和GT-MA模式反别呈现女性和男性电话语音,GS-FE模式和GS-MA模式呈现女性和男性纯粹语音,而GSM-FE模式和GSM-MA模式呈现女性和男性音乐中的语音。另外两种呈现在退化条件下记录的女性和男性语音的模式,即GDS-FE模式和GDS-MA模式,也被用于改善最后的分割阶段。在上个步骤描述的分割过程在此处又被应用。

2.1.2 系统规格

该信号的特点表现为在25毫米加重平衡视窗化框架内每10毫秒可计算到39个声学特征:12梅尔倒谱系数随着正规化能量的增大而增大,三角及三角-三角系数紧随其后。参数选择主要参照文献指导 (Hain and Woodland, 1998)。

在前一部分提到的所有模型均为斜高斯混合模型,在 1996 HUB 4广播新闻语料库的基础上实验得来。

NS模型和MixS 模型分别表现为1高斯分量概率和512高斯分量概率,而其他的模型则表现为1024高斯分量概率。所有参数均在进行一系列未在此处报道出来的实验后依据经验选择。

2.2语音逐步分割与聚集

CLIPS系统是基于分层聚类之后的语音变化检测的先进系统。自动检测对话中所涉及的语音人数。该系统采用了在2.1章讲到的宏观声音分割方法。如第二章所讲述的,CLIPS系统将分别应用于每一个声类,将于本章节最后合并所有结果。下一子章节将详细讨论该系统的每一个模块。

2.2.1 第一步:语音变化检测

语音变化检测旨在将录音分割成每部分只包含一个语音语音的片段,该检测还致力于寻找不连续的语音信号,以帮助我们将两个相连的语音区分开来。这些语音片段将用于聚类模块的输入数据,采用基于距离的方法,即此处的GLR。考虑到两个声学序列X和Y,我们将检测它们是由同一个高斯模型(同一语音)Mxy生成的还是由两个不同的模型(两个不同的语音)Mx 和My 生成的。这个问题借助

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[505569],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。