2022年《语音识别入门教程》 .pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《2022年《语音识别入门教程》 .pdf》由会员分享,可在线阅读,更多相关《2022年《语音识别入门教程》 .pdf(10页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、语音识别入门 (V1.0 ,内部学习资料 ) 语音识别入门( V1.0)丁鹏、梁家恩、苏牧、孟猛、李鹏、王士进、王晓瑞、张世磊中科院自动化所高创中心,北京,100080 【摘要】本文主要以剑桥工程学院(CUED )的语音识别系统为例,并结合我们实验室自身的研究与开发经验,讲述当前主流的大词汇量连续语音识别系统(LVCSR )的框架和相关技术,对实验室的同学进行一个普及和入门引导。【关键词】语音识别,HTK ,LVCSR,SRI 1. 引言语音识别技术发展到今天,取得了巨大的进步, 但也存在很多的问题。 本文主要以CUED的语言识别系统为例,说明LVCSR 系统技术的最新进展和研究方向,对实验室
2、的同学进行一个普及和入门引导。1.1 国际语音识别技术研究机构(1)Cambridge University Engineering Department (CUED)(2)IBM(3)BBN(4)LIMSI(5)SRI(6)RWTH Aachen(7)AT&T(8)ATR(9)Carnegie Mellon University (CMU)(10)Johns Hopkins University (CLSP)1.2 国际语音识别技术期刊(1)Speech Communication(2)Computer Speech and Language (CSL)(3)IEEE Transaction
3、s on Speech and Audio Processing1.3 国际语音识别技术会议(1)ICASSP(International Conference on Acoustic, Speech and Signal Processing )每年一届, 10 月截稿,次年5 月开会。(2)ICSLP(International Conference on Spoken Language Processing )偶数年举办, 4月截稿, 9 月开会。- 1 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 -
4、 - - - - - - 第 1 页,共 10 页 - - - - - - - - - 语音识别入门 (V1.0 ,内部学习资料 ) (3)EuroSpeech:奇数年举办,4 月截稿, 9 月开会。1.4 国际语音识别技术评测zNIST Spoken Language Technology Evaluations Benchmark Tests (http:/www.nist.gov/speech/tests/index.htm) 1.5 语音识别技术工具包?AT&T FSM Library?CMU-Cambridge Statistical LM Toolkit?CMU Sphinx?CS
5、LU toolkit?CUED HTK?Edinburgh Speech Tools Library?KTH WaveSurfer?MSState ASR Toolkit?NIST Utility Software?SPRACHcore software package?SRI Language Modelling Toolkit?SoX - Sound eXchange?Transcriber?UCL Speech Filing System?FBVIEW multi-channel audio file viewer1.6 语音识别技术研究语音识别技术研究目前以CUED 最为开放和活跃,
6、其工具包HTK 和相关研究组的网址如下,通过这些网址可以链接到上述语音识别相关的网站。zhttp:/htk.eng.cam.ac.uk/zhttp:/mi.eng.cam.ac.uk/research/speech/通过参考文献的学习,在了解相关的基础原理和研究动态之后,可以结合实验室的发展需求深入研究相关的核心算法。下面将简要介绍LVCSR 的基本原理,以及国际上目前热点研究的核心技术问题,最后给出相关领域的参考文献。2. 语音识别基本原理2.1 语音识别系统流程语音识别系统的基本任务就是将输入的语音信号,识别成文字符号输出,基本流程如下图所示,基本上分成两个部分:前端处理(Front En
7、d Processing, FE) 、搜索和解码( Search and Decoding) 。其中,搜索和解码需要利用训练好的声学模型(Acoustic Model ,AM ) 、语言模型( Language Model, LM ) ,以及联系这两个模型的发音词典(Lexicon) 。- 2 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 10 页 - - - - - - - - - 语音识别入门 (V1.0 ,内部学习资料 ) 图一:语音识别系统基本流程图其中,前
8、端处理完成的基本任务就是特征提取和归一化,在广播语音或者电话语音等大段语音处理中, 还需要做相应的前端预处理工作,切分成语音片断输入;搜索和解码引擎是整个识别器的主要算法所在,主要采用Viterbi 搜索算法等动态规划方法,搜索在给定模型情况下的最优结果;语言和声学模型则是通过统计方法训练得到的,发音词典是将这两个模型联系起来的桥梁。2.2 语音识别的统计模型描述语音识别系统首先将输入语音提取成为特征向量序列1TX,目标是给出特定声学和语言模型下的最大后验词串1NW,即11111111111111111(|,)(|)*()()(|)*()(|)*()argmaxargmaxargmaxargm
9、axNNNNNNTWTNNTWTNNWTNNWWP WXAM LM LexP XWP WP XP XWP WLogP XWLogP W=+其中, 第二个等式中略去了AM 、LM 和 Lex,第三个等式略去主要是因为该项不影响1(TP X)1NW的选择, 第四个等式用对概率取对数也不影响对1NW的选择,主要用于控制动态范围,参数用于平衡声学和语言模型的权重,因为声学和语言模型是用不同语料独立训练的。为声学得分,11(|TNLogP XW)1(NLogP W为语言得分, 分别用相应的声学和语言模型计算,语言模型概率具体计算如下:- 3 - 名师资料总结 - - -精品资料欢迎下载 - - - -
10、- - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 10 页 - - - - - - - - - 语音识别入门 (V1.0 ,内部学习资料 ) 1112111111N11k=1()()*(|)*.*(|)()*.*(|)*.*(|) =P(|)NNNkNkk MNNMkkk MP WP WP WWP WWP WP WWP WWW W-+-+-+=1其中, 第一个等式是联合概率的展开,第二个是用M-Gram 近似计算, 第三个等式是第二个等式的简写形式。声学模型概率具体计算如下:11111111111111(|)(|)(,|)(,|)
11、(|)*(|)maxTTTNTLTTLSTTLSTtttttP XWP XHP XSHP XSHP XSP SS-=其中,第一个等式是利用Lex 信息将词串1NW转换成音素模型串1LH,该模型串为隐马尔可夫模型( HMM ) ;第二个等式引入隐含声学状态序列,包含模型的时间对齐信息,用于计算声学得分;第三个等式为Viterbi 近似,用“最优”状态序列近似求和式,便于引入动态规划算法搜索最优识别结果;第四个等式将状态跳转概率和观测序列概率分开计算,并略去1TS11(|TLP SH)111(|,TTLP XSH1LH符号, 因为模型已经确定; 每帧观测概率通常由混合高斯模型(Gaussian M
12、ixture Model, GMM)描述:(|ttP XS )2,1(|)*(;,ttMttitS iS iiP XSCN X=其中,为混合项系数,M 为混合项数,为第 i 个单高斯分布混合项。声学模型的HMM 描述如下图所示:iC2,(;,)tttS iS iN X图二:典型的HMM 声学模型结构图- 4 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 10 页 - - - - - - - - - 语音识别入门 (V1.0 ,内部学习资料 ) 图中, 声学模型是由5
13、 个状态构成: 第 1 个和第 5 个状态只起到连接作用,没有观测概率;中间的 2、3、4 状态具有 GMM 描述的观测概率分布。模型是一个从左到右的跳转结构,每个跳转有一个概率,这样,每个音素的发音特征就由这样一个模型描述。2.3 语音识别的模型训练在通常情况下, 语音识别的解码器搜索错误相对比较低,语音识别的准确率主要取决于声学和语言模型的精度。模型精度主要取决于两个方面:一是训练语料的规模和质量,二是训练的工具和算法。一、声学模型训练声学模型训练就是利用带标注的训练语料,训练每个音素的发音HMM 模型。声学模型训练需要考虑两个基本因素:一是模型的精度, 即模型要尽可能精细,以提高系统的识
14、别率;二是模型的鲁棒性,即模型的参数必须得到比较好的估计,有足够的训练参数,确保模型对训练集外的数据具有足够的泛化能力。通常模型需要考虑这两个方面因素的折中,达到比较好的效果。目前的 LVCSR 系统通常采用音素作为基本的建模单元,为了提高建模精度,通常要选用上下文相关的音素模型(Context Dependent Phone Model ) ,即对不同声学上下文下的音素建立不同的模型。为了保证鲁棒性,通常需要对模型参数进行共享,这种共享的方法,通常是通过决策树分裂的方式,根据给定的上下文问题集,进行自顶向下的分裂,确保训练集中样本很稀疏的模型可以得到鲁棒地估计。声学模型训练的过程,实际上就是
15、对训练数据的拟合过程,最基本的方法就是最大似然(Maximum Likelihood, ML)的方法,通过BaumWelch 的 EM 算法,迭代优化模型参数得到。其它的区分度准则,如MMI 和 MPE 准则也可以用于优化模型,提高模型精度。为了提高声学模型的精度,通常需要做一些特征归一化、噪声抑制等算法,提高声学模型对声道、说话人、加性噪声等因素的鲁棒性。另外,自适应技术也用于提高系统对环境和说话人的自适应能力,提高系统的性能。声学模型训练的典型工具就是HTK 工具包。二、语言模型训练语言模型训练和声学模型训练类似,利用大量的文本语料对模型参数进行估计,对于稀疏的数据,采用回退和平滑技术,提
16、高模型对训练集外语言现象的估计能力。语言模型训练典型的工具包有SRILM 和 HTKLM ,都可以对语言模型进行训练。3. 语音识别系统核心技术3.1 前端预处理技术在进行广播新闻或者电话、会议录音等语料时,往往需要对大段的语料进行预处理,切分成适合语音识别系统处理的片断。预处理主要完成功能为:(1)语音切分(2)语音 /非语音判别(3)宽窄带判别(4)男女声判别(5)说话人聚类(6)音乐片断剔除- 5 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 10 页 - -
17、 - - - - - - - 语音识别入门 (V1.0 ,内部学习资料 ) 语音预处理的性能对语音识别的效果有比较大的影响,是实用系统中不可缺少的模块。3.2 特征提取和归一化技术语音特征提取和归一化技术主要是将语音提取成为特征,常用的特征为MFCC 特征和PLP 特征,在特征提取基础上,通常需要进行一定的归一化,如:(1)均值归一化CMN ,主要降低信道影响(2)方差归一化CVN ,主要降低加性噪声影响(3)声道长度归一化VTLN ,主要降低声道差异造成的影响(4)高斯化 Gaussianization,是 CMN+CVN的推广算法。(5)抗噪算法,降低背景噪声对系统性能影响,如AWF 和
18、VTS 等鲁棒性是语音识别系统的一个主要问题,在特征层次提高系统鲁棒性是一个主要研究热点,对语音识别系统性能的影响比较显著。3.3 线性变换技术在通常的语音识别系统中,混合高斯模型采用的是对角方差的建模方法,即认为特征向量的各维分布是相互独立的,这实际上只是一种近似。为了提高系统的精度,通常需要对特征进行解相关线性变换,或者,利用高维特征进行区分性投影降维,达到同样的效果。这种方法从原理上说等效于全方差建模,但是, 变换矩阵的估计方法比较容易实现。主要的线性变换算法如下:(1)STC (2)HLDA (3)EMLLT (4)SPAM 这些线性变换的方法对提高系统模型精度,进而提高系统性能具有显
19、著作用。3.4 自适应技术和自适应训练通常语音识别系统的应用环境与训练语料具有不同程度的不匹配性,这在很大程度上影响了系统的性能,因此,往往需要进行一定的声学模型自适应,以得到比较好的识别效果。自适应可以在特征层实现,也可以在模型层实现,这里主要讲模型层的自适应技术。目前主要的声学模型自适应技术包括:(1)MAP (2)MLLR (3)CMLLR 在做声学模型自适应时,可以对环境和说话人的特点进行一定程度的自适应,这样, 从原理上说,就可以将“通用”的声学模型,自适应到相对“专用”的场合下,提高性能。这样, “通用”模型如果能够去掉训练预料中的说话人和环境相关信息,则可以得到更好的模型,这就是
20、自适应训练的基本方法。目前自适应训练基本的方法就是CMLLR 的方法。3.5 区分度训练技术基于最大似然准则的模型训练方法,是声学模型训练的最基本的方法,具有一套成熟的实现算法, BaumWelch 的 EM 算法,通过迭代估计模型参数,对训练语料进行最大似然拟合。 基于区分度准则的方法,则直接从降低系统识别错误的角度出发,对声学模型参数进行优化, 在优化过程中, 不但要考虑识别结果本身的似然度,还要考虑与之竞争的路径的似- 6 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音识别入门教程 2022年语音识别入门教程 2022 语音 识别 入门教程
![提示](https://www.deliwenku.com/images/bang_tan.gif)
限制150内