2022年语音识别引擎介绍 .pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《2022年语音识别引擎介绍 .pdf》由会员分享,可在线阅读,更多相关《2022年语音识别引擎介绍 .pdf(4页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、语音识别引擎介绍1. 语音识别技术简介语音识别技术,也被称为自动语音识别Automatic Speech Recognition , (ASR) ,其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。 与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术的应用包括语音拨号、语音导航、 室内设备控制、 语音文档检索、简单的听写数据录入等。 语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和
2、信息论、发声机理和听觉机理、人工智能等等。2. 语音识别技术详解目前,主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成信号处理及特征提取模块。 该模块的主要任务是从输入信号中提取特征,供声学模型处理。 同时,它一般也包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。语言模型。语言模型对系统所针对的语言进行建模。理论上,包括正则
3、语言,上下文无关文法在内的各种语言模型都可以作为语言模型,但目前各种系统普遍采用的还是基于统计的N 元文法及其变体。解码器。解码器是语音识别系统的核心之一,其任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。从数学角度可以更加清楚的了解上述模块之间的关系。首先,统计语音识别的最基本问题是,给定输入信号或特征序列,名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 4 页 - - - - - - - - - 符号集(词典),求解符号串使得:W =
4、 argmaxP(W | O) 通过贝叶斯公式,上式可以改写为由于对于确定的输入串O,P(O)是确定的,因此省略它并不会影响上式的最终结果,因此,一般来说语音识别所讨论的问题可以用下面的公式来表示,可以将它称为语音识别的基本公式。W = argmaxP(O | W)P(W) 从这个角度来看, 信号处理模块提供了对输入信号的预处理,也就是说, 提供了从采集的语音信号 (记为 S)到 特征序列 O的映射。而声学模型本身定义了一些更具推广性的声学建模单元,并且提供了在给定输入特征下,估计P(O | uk)的方法。为了将声学模型建模单元串映射到符号集,就需要发音词典发挥作用。 它实际上定义了映射的映射
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年语音识别引擎介绍 2022 语音 识别 引擎 介绍
![提示](https://www.deliwenku.com/images/bang_tan.gif)
限制150内