书签分享收藏举报版权申诉 / 10

立即下载

当前位置：首页 > 教育专区 > 高考资料 > 2022年《语音识别入门教程》 .pdf

2022年《语音识别入门教程》 .pdf

上传人：Che****ry

文档编号：27275926

上传时间：2022-07-23

格式：PDF

页数：10

大小：163.30KB

( 4.5 )

《2022年《语音识别入门教程》 .pdf》由会员分享，可在线阅读，更多相关《2022年《语音识别入门教程》 .pdf（10页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、语音识别入门 (V1.0 ，内部学习资料 ) 语音识别入门（ V1.0）丁鹏、梁家恩、苏牧、孟猛、李鹏、王士进、王晓瑞、张世磊中科院自动化所高创中心，北京，100080 【摘要】本文主要以剑桥工程学院（CUED ）的语音识别系统为例，并结合我们实验室自身的研究与开发经验，讲述当前主流的大词汇量连续语音识别系统（LVCSR ）的框架和相关技术，对实验室的同学进行一个普及和入门引导。【关键词】语音识别，HTK ，LVCSR，SRI 1. 引言语音识别技术发展到今天，取得了巨大的进步，但也存在很多的问题。本文主要以CUED的语言识别系统为例，说明LVCSR 系统技术的最新进展和研究方向，对实验室

2、的同学进行一个普及和入门引导。1.1 国际语音识别技术研究机构（1）Cambridge University Engineering Department (CUED)（2）IBM（3）BBN（4）LIMSI（5）SRI（6）RWTH Aachen（7）AT&T（8）ATR（9）Carnegie Mellon University (CMU)（10）Johns Hopkins University (CLSP)1.2 国际语音识别技术期刊（1）Speech Communication（2）Computer Speech and Language (CSL)（3）IEEE Transaction

3、s on Speech and Audio Processing1.3 国际语音识别技术会议（1）ICASSP（International Conference on Acoustic, Speech and Signal Processing ）每年一届， 10 月截稿，次年5 月开会。（2）ICSLP（International Conference on Spoken Language Processing ）偶数年举办， 4月截稿， 9 月开会。- 1 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 -

4、 - - - - - - 第 1 页，共 10 页 - - - - - - - - - 语音识别入门 (V1.0 ，内部学习资料 ) （3）EuroSpeech：奇数年举办，4 月截稿， 9 月开会。1.4 国际语音识别技术评测zNIST Spoken Language Technology Evaluations Benchmark Tests (http:/www.nist.gov/speech/tests/index.htm) 1.5 语音识别技术工具包?AT&T FSM Library?CMU-Cambridge Statistical LM Toolkit?CMU Sphinx?CS

5、LU toolkit?CUED HTK?Edinburgh Speech Tools Library?KTH WaveSurfer?MSState ASR Toolkit?NIST Utility Software?SPRACHcore software package?SRI Language Modelling Toolkit?SoX - Sound eXchange?Transcriber?UCL Speech Filing System?FBVIEW multi-channel audio file viewer1.6 语音识别技术研究语音识别技术研究目前以CUED 最为开放和活跃，

6、其工具包HTK 和相关研究组的网址如下，通过这些网址可以链接到上述语音识别相关的网站。zhttp:/htk.eng.cam.ac.uk/zhttp:/mi.eng.cam.ac.uk/research/speech/通过参考文献的学习，在了解相关的基础原理和研究动态之后，可以结合实验室的发展需求深入研究相关的核心算法。下面将简要介绍LVCSR 的基本原理，以及国际上目前热点研究的核心技术问题，最后给出相关领域的参考文献。2. 语音识别基本原理2.1 语音识别系统流程语音识别系统的基本任务就是将输入的语音信号，识别成文字符号输出，基本流程如下图所示，基本上分成两个部分：前端处理（Front En

7、d Processing, FE）、搜索和解码（ Search and Decoding）。其中，搜索和解码需要利用训练好的声学模型（Acoustic Model ，AM ）、语言模型（ Language Model, LM ），以及联系这两个模型的发音词典（Lexicon）。- 2 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页，共 10 页 - - - - - - - - - 语音识别入门 (V1.0 ，内部学习资料 ) 图一：语音识别系统基本流程图其中，前

8、端处理完成的基本任务就是特征提取和归一化，在广播语音或者电话语音等大段语音处理中，还需要做相应的前端预处理工作，切分成语音片断输入；搜索和解码引擎是整个识别器的主要算法所在，主要采用Viterbi 搜索算法等动态规划方法，搜索在给定模型情况下的最优结果；语言和声学模型则是通过统计方法训练得到的，发音词典是将这两个模型联系起来的桥梁。2.2 语音识别的统计模型描述语音识别系统首先将输入语音提取成为特征向量序列1TX，目标是给出特定声学和语言模型下的最大后验词串1NW，即11111111111111111(|,)(|)*()()(|)*()(|)*()argmaxargmaxargmaxargm

9、axNNNNNNTWTNNTWTNNWTNNWWP WXAM LM LexP XWP WP XP XWP WLogP XWLogP W=+其中，第二个等式中略去了AM 、LM 和 Lex，第三个等式略去主要是因为该项不影响1(TP X)1NW的选择，第四个等式用对概率取对数也不影响对1NW的选择，主要用于控制动态范围，参数用于平衡声学和语言模型的权重，因为声学和语言模型是用不同语料独立训练的。为声学得分，11(|TNLogP XW)1(NLogP W为语言得分，分别用相应的声学和语言模型计算，语言模型概率具体计算如下：- 3 - 名师资料总结 - - -精品资料欢迎下载 - - - -

10、- - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页，共 10 页 - - - - - - - - - 语音识别入门 (V1.0 ，内部学习资料 ) 1112111111N11k=1()()*(|)*.*(|)()*.*(|)*.*(|) =P(|)NNNkNkk MNNMkkk MP WP WP WWP WWP WP WWP WWW W-+-+-+=1其中，第一个等式是联合概率的展开，第二个是用M-Gram 近似计算，第三个等式是第二个等式的简写形式。声学模型概率具体计算如下：11111111111111(|)(|)(,|)(,|)

11、(|)*(|)maxTTTNTLTTLSTTLSTtttttP XWP XHP XSHP XSHP XSP SS-=其中，第一个等式是利用Lex 信息将词串1NW转换成音素模型串1LH，该模型串为隐马尔可夫模型（ HMM ）；第二个等式引入隐含声学状态序列，包含模型的时间对齐信息，用于计算声学得分；第三个等式为Viterbi 近似，用“最优”状态序列近似求和式，便于引入动态规划算法搜索最优识别结果；第四个等式将状态跳转概率和观测序列概率分开计算，并略去1TS11(|TLP SH)111(|,TTLP XSH1LH符号，因为模型已经确定；每帧观测概率通常由混合高斯模型（Gaussian M

12、ixture Model, GMM）描述：(|ttP XS )2,1(|)*(;,ttMttitS iS iiP XSCN X=其中，为混合项系数，M 为混合项数，为第 i 个单高斯分布混合项。声学模型的HMM 描述如下图所示：iC2,(;,)tttS iS iN X图二：典型的HMM 声学模型结构图- 4 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页，共 10 页 - - - - - - - - - 语音识别入门 (V1.0 ，内部学习资料 ) 图中，声学模型是由5

13、个状态构成：第 1 个和第 5 个状态只起到连接作用，没有观测概率；中间的 2、3、4 状态具有 GMM 描述的观测概率分布。模型是一个从左到右的跳转结构，每个跳转有一个概率，这样，每个音素的发音特征就由这样一个模型描述。2.3 语音识别的模型训练在通常情况下，语音识别的解码器搜索错误相对比较低，语音识别的准确率主要取决于声学和语言模型的精度。模型精度主要取决于两个方面：一是训练语料的规模和质量，二是训练的工具和算法。一、声学模型训练声学模型训练就是利用带标注的训练语料，训练每个音素的发音HMM 模型。声学模型训练需要考虑两个基本因素：一是模型的精度，即模型要尽可能精细，以提高系统的识

14、别率；二是模型的鲁棒性，即模型的参数必须得到比较好的估计，有足够的训练参数，确保模型对训练集外的数据具有足够的泛化能力。通常模型需要考虑这两个方面因素的折中，达到比较好的效果。目前的 LVCSR 系统通常采用音素作为基本的建模单元，为了提高建模精度，通常要选用上下文相关的音素模型（Context Dependent Phone Model ），即对不同声学上下文下的音素建立不同的模型。为了保证鲁棒性，通常需要对模型参数进行共享，这种共享的方法，通常是通过决策树分裂的方式，根据给定的上下文问题集，进行自顶向下的分裂，确保训练集中样本很稀疏的模型可以得到鲁棒地估计。声学模型训练的过程，实际上就是

15、对训练数据的拟合过程，最基本的方法就是最大似然（Maximum Likelihood, ML）的方法，通过BaumWelch 的 EM 算法，迭代优化模型参数得到。其它的区分度准则，如MMI 和 MPE 准则也可以用于优化模型，提高模型精度。为了提高声学模型的精度，通常需要做一些特征归一化、噪声抑制等算法，提高声学模型对声道、说话人、加性噪声等因素的鲁棒性。另外，自适应技术也用于提高系统对环境和说话人的自适应能力，提高系统的性能。声学模型训练的典型工具就是HTK 工具包。二、语言模型训练语言模型训练和声学模型训练类似，利用大量的文本语料对模型参数进行估计，对于稀疏的数据，采用回退和平滑技术，提

16、高模型对训练集外语言现象的估计能力。语言模型训练典型的工具包有SRILM 和 HTKLM ，都可以对语言模型进行训练。3. 语音识别系统核心技术3.1 前端预处理技术在进行广播新闻或者电话、会议录音等语料时，往往需要对大段的语料进行预处理，切分成适合语音识别系统处理的片断。预处理主要完成功能为：（1）语音切分（2）语音 /非语音判别（3）宽窄带判别（4）男女声判别（5）说话人聚类（6）音乐片断剔除- 5 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页，共 10 页 - -

17、 - - - - - - - 语音识别入门 (V1.0 ，内部学习资料 ) 语音预处理的性能对语音识别的效果有比较大的影响，是实用系统中不可缺少的模块。3.2 特征提取和归一化技术语音特征提取和归一化技术主要是将语音提取成为特征，常用的特征为MFCC 特征和PLP 特征，在特征提取基础上，通常需要进行一定的归一化，如：（1）均值归一化CMN ，主要降低信道影响（2）方差归一化CVN ，主要降低加性噪声影响（3）声道长度归一化VTLN ，主要降低声道差异造成的影响（4）高斯化 Gaussianization，是 CMN+CVN的推广算法。（5）抗噪算法，降低背景噪声对系统性能影响，如AWF 和

18、VTS 等鲁棒性是语音识别系统的一个主要问题，在特征层次提高系统鲁棒性是一个主要研究热点，对语音识别系统性能的影响比较显著。3.3 线性变换技术在通常的语音识别系统中，混合高斯模型采用的是对角方差的建模方法，即认为特征向量的各维分布是相互独立的，这实际上只是一种近似。为了提高系统的精度，通常需要对特征进行解相关线性变换，或者，利用高维特征进行区分性投影降维，达到同样的效果。这种方法从原理上说等效于全方差建模，但是，变换矩阵的估计方法比较容易实现。主要的线性变换算法如下：（1）STC （2）HLDA （3）EMLLT （4）SPAM 这些线性变换的方法对提高系统模型精度，进而提高系统性能具有显

19、著作用。3.4 自适应技术和自适应训练通常语音识别系统的应用环境与训练语料具有不同程度的不匹配性，这在很大程度上影响了系统的性能，因此，往往需要进行一定的声学模型自适应，以得到比较好的识别效果。自适应可以在特征层实现，也可以在模型层实现，这里主要讲模型层的自适应技术。目前主要的声学模型自适应技术包括：（1）MAP （2）MLLR （3）CMLLR 在做声学模型自适应时，可以对环境和说话人的特点进行一定程度的自适应，这样，从原理上说，就可以将“通用”的声学模型，自适应到相对“专用”的场合下，提高性能。这样， “通用”模型如果能够去掉训练预料中的说话人和环境相关信息，则可以得到更好的模型，这就是

20、自适应训练的基本方法。目前自适应训练基本的方法就是CMLLR 的方法。3.5 区分度训练技术基于最大似然准则的模型训练方法，是声学模型训练的最基本的方法，具有一套成熟的实现算法， BaumWelch 的 EM 算法，通过迭代估计模型参数，对训练语料进行最大似然拟合。基于区分度准则的方法，则直接从降低系统识别错误的角度出发，对声学模型参数进行优化，在优化过程中，不但要考虑识别结果本身的似然度，还要考虑与之竞争的路径的似- 6 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6

21、页，共 10 页 - - - - - - - - - 语音识别入门 (V1.0 ，内部学习资料 ) 然度，提高整个系统的声学区分能力，从而降低系统识别错误。区分度训练的准则通常包括以下几个：（1）MMI 准则（2）MPE 准则（3）fMPE 方法区分度准则下的模型优化，与MLE 准则下的声学模型训练最大的区别在于需要考虑竞争路径的信息，优化的目标函数也比较复杂，不能直接用BW 算法，而需要采用扩展的EBW算法实现模型参数的优化。在小规模情况下，MCE 准则也通常被使用，但在大词汇量连续语音识别系统中，通常采用 MPE 的准则。区分度训练的方法，对语音识别系统性能提高具有显著影响，是目前主

22、流系统都采用的方法。3.6 轻监督训练技术在进行广播、电话语音识别时，往往会遇到语料不充分的问题，很难得到足够的精标数据进行模型训练（有监督训练），因此，需要研究更好的方法，利用字幕（Close Caption ）信息训练声学模型。3.7 后处理技术不同的语音识别系统在性能上有不同的差异，即使性能相近的系统，识别结果也有差异。利用不同的识别结果进行整合，提高系统整体性能。目前主要的后处理方法有：（1）ROVER （2）CNC 3.8 解码技术解码技术是语音识别系统的核心技术，主要在于词图生成上，不同的系统具有不同的性能。在上述各种建模方法发挥到最大的情况下，模型精度造成的系统性能差异不大，

23、而搜索生成的词图的质量，对后续处理具有重要影响。3.9 口语语言模型建模利用网络文本信息建立口语语言模型，提高系统处理口语语音的能力，也是目前语音识别系统研究的一个方向。3.10 置信度计算置信度计算在检测类问题中比较重要，在后处理、无监督自适应、轻监督训练中也具有重要应用，也是目前一个比较难解决的问题。目前在LVCSR 系统中置信度基本上都采用基于词图后验概率的计算方法，而在关键词检测系统中则以声学置信度为主。- 7 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页，

24、共 10 页 - - - - - - - - - 语音识别入门 (V1.0 ，内部学习资料 ) 4. 参考文献HMM 基础教程1Bilmes, “A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models”, ICSI 1998. 2Rabiner, “A tutorial on HMM and Selected Applications in Speech Recognition”, IEEE Pr

25、oc. 1989. 3Huang, X.D., “Hidden Markov Models” 4Young, “A review of LVCSR”, 1996. 声学模型5Odell, J. J., The Use of Context in Large Vocabulary Speech Recognition , Ph.D. thesis, University of Cambridge, Cambridge, UK, 1995. 6高升 , 语境相关的升学模型和搜索策略的研究，中科院自动化所博士学位论文，2001. 搜索技术7Ney, H. and S. Ortmanns, Progr

26、ess in Dynamic Programming Search for LVCSR, Proceedings of the IEEE, Vol. 88, NO. 8, August 2000. 8Ortmanns, S., H. Ney, and X. Aubert, A word graph algorithm for large vocabulary continuous speech recognition, Computer, Speech, and Language, vol. 11, no. 1, pp. 43-72, Jan. 1997. 9Aubert, X., An ov

27、erview of decoding techniques for large vocabulary continuous speech recognition, Computer Speech and Language (2002) 16, 89-114. 语言模型10 Chen, S. F. and Goodman, J, An Empirical Study of Smoothing Techniques for Language Modeling, Computer Science Group Harvard University, Cambridge, Massachusetts，

28、1998 11 Stolcke, A., Entropy-based Pruning of Backoff Language Models, Proc. DARPA Broadcast News Transcription and Understanding Workshop, pp. 270-274, Lansdowne, 1998 12 Rosenfeld, R., Two decades of statistical language modeling: Where do we go from here, Proc. IEEE 88 (8), 12701278, 2000 预处理技术13

29、 J. Ajmera, “Robust Audio Segmentation,” Doctor Thesis, 2004. 14 T. Hain, S.E. Johnson, A. Tuerk, P.C.Woodland, et S.J.Young. Segment generation and clustering in the HTK Broadcast news transcription system, DARPA BN Workshop, 1998. 15 Lie Lu, Hong-Jiang Zhang, Stan Li, Content-based Audio Classific

30、ation and Segmentation by Using Support Vector Machines. ACM Multimedia Systems Journal 8 (6), pp. 482-492, March, 2003. - 8 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页，共 10 页 - - - - - - - - - 语音识别入门 (V1.0 ，内部学习资料 ) 鲁棒特征16 Pedro J. Moreno, etc A Vector Tayl

31、or Series Approach for Environment-Independent Speech Recognition, ICASSP96. 17 Gales, Model-Based Techniques for Noise Robust Speech Recognition, Ph.D. thesis, University of Cambridge, Cambridge, UK, 1995. 18 Gales, Robust speech recognition in additive and convolutional noise using parallel model

32、combination, CSL 1995. 19 Huang, X.D., “Speech Signal Representations” 置信度计算20 Wessel, F., Word Posterior Probabilities for Large Vocabulary Continuous Speech Recognition, Ph.D. Thesis ，2002. 线性变换21 M.J.F. Gales, Semi-Tied Covariance Matrices for Hidden Markov Models, IEEE Trans, VOL. 7, NO. 3, MAY

33、1999 22 M.J.F. Gales, Maximum Likelihood Multiple Subspace Projections for Hidden Markov Models, IEEE Trans, VOL. 10, NO. 2, FEB. 2002 23 R. A. Gopinath, Constrained Maximum Likelihood Modeling with Gaussian Distributions, Proc. of ARPA Workshop on Human Language Understanding, January, 1998 24 N. K

34、umar, A.G . Andreou, Heteroscedastic discriminant analysis and reduced rank HMMs for improved speech recognition, Speech Communication 26 (1998) 283-297 自适应技术25 C.J. Leggetter, P.C. Woodland, Speaker Adaptation of HMMs Using Linear Regression, CUED/F-INFENG/TR.181, June 1994 26 M.J.F. Gales, Maximum

35、 likelihood linear transformations for HMM-based speech recognition, Computer Speech and Language (1998) 12, 7598 27 T. Anastasakos, el. al., A Compact Model for Speaker-Adaptive Training, ICSLP 96 28 Gauvain, “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov

36、Chains”, IEEE Trans. 1994. 后处理技术29 Jonathan G. Fiscus, A POST-PROCESSING SYSTEM TO YIELD REDUCED WORD ERROR RATES: RECOGNIZER OUTPUT VOTING ERROR REDUCTION (ROVER) ,National Institute of Standards and Technology,1997 30 Lidia Mangu ， Eric Brill and Andreas Stolcke, Finding consensus in speech recogn

37、ition word error minimization and other applications of confusion networks, Computer Speech and Language (2000) 14, 373400 - 9 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页，共 10 页 - - - - - - - - - 语音识别入门 (V1.0 ，内部学习资料 ) 轻监督训练31 L. Lamel, J. L. Gauvain, and G.

38、 Adda, Lightly Supervised and Unsupervised Acoustic Model Training, Computer, Speech and Language, 16(1):115-229, January 2002. 32 F. Wessel and H. Ney, Unsupervised training of acoustic models for large vocabulary continuous speech recognition, Proc. IEEE Automatic Speech Recognition and Understand

39、ing Workshop, ASRU01, Madonna di Campiglio, December 2001. 33 L. Nguyen & B. Xiang, “Light Supervision in Acoustic Model Training,” Proc. ICASSP, 2004. 区分度训练34 Povey, D., Discriminative Training for Large Vocabulary Speech Recognition, Ph.D. thesis, University of Cambridge, Cambridge, UK, 2004. 35 P

40、ovey, D., Discriminative Training for Speech Recognition, ICASSP 2002. 36 Povey, D., Discriminatively Trained Features for Speech Recognition 37 Woodland, P.C., Large scale discriminative training of hidden Markov models for speech recognition, Computer Speech and Language, 2002. 38 Juang, B.-H., MCE Methods for Speech Recognition, IEEE Trans. 1997. - 10 - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页，共 10 页 - - - - - - - - -

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4.3 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 语音识别入门教程 2022年语音识别入门教程 2022 语音识别入门教程

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：2022年《语音识别入门教程》 .pdf
链接地址：https://www.deliwenku.com/p-27275926.html