2022年语音识别引擎介绍 .pdf

上传人：Q****o

文档编号：27984364

上传时间：2022-07-26

格式：PDF

页数：4

大小：82.46KB

( 4.5 )

《2022年语音识别引擎介绍 .pdf》由会员分享，可在线阅读，更多相关《2022年语音识别引擎介绍 .pdf（4页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、语音识别引擎介绍1. 语音识别技术简介语音识别技术，也被称为自动语音识别Automatic Speech Recognition ， (ASR) ，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和

2、信息论、发声机理和听觉机理、人工智能等等。2. 语音识别技术详解目前，主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征，供声学模型处理。同时，它一般也包括了一些信号处理技术，以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。统计声学模型。典型系统多采用基于一阶隐马尔科夫模型进行建模。发音词典。发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。语言模型。语言模型对系统所针对的语言进行建模。理论上，包括正则

3、语言，上下文无关文法在内的各种语言模型都可以作为语言模型，但目前各种系统普遍采用的还是基于统计的N 元文法及其变体。解码器。解码器是语音识别系统的核心之一，其任务是对输入的信号，根据声学、语言模型及词典，寻找能够以最大概率输出该信号的词串。从数学角度可以更加清楚的了解上述模块之间的关系。首先，统计语音识别的最基本问题是，给定输入信号或特征序列，名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页，共 4 页 - - - - - - - - - 符号集（词典），求解符号串使得：W =

4、 argmaxP(W | O) 通过贝叶斯公式，上式可以改写为由于对于确定的输入串O，P(O)是确定的，因此省略它并不会影响上式的最终结果，因此，一般来说语音识别所讨论的问题可以用下面的公式来表示，可以将它称为语音识别的基本公式。W = argmaxP(O | W)P(W) 从这个角度来看，信号处理模块提供了对输入信号的预处理，也就是说，提供了从采集的语音信号 (记为 S)到特征序列 O的映射。而声学模型本身定义了一些更具推广性的声学建模单元，并且提供了在给定输入特征下，估计P(O | uk)的方法。为了将声学模型建模单元串映射到符号集，就需要发音词典发挥作用。它实际上定义了映射的映射

5、。为了表示方便，也可以定义一个由到U 的全集的笛卡尔积，而发音词典则是这个笛卡尔积的一个子集。并且有：最后，语言模型则提供了P(W)。这样，基本公式就可以更加具体的写成：对于解码器来说，就是要在由,ui 以及时间标度 t 张成的搜索空间中，找到上式所指明的 W。语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。3. 语音识别引擎介绍随着智能化电子终端的不断普及与发展，语音技术已经成为智能产品市场的一个热点需求，优同语音识别引擎也在市场需求的驱动下不断发展革新，已经被广泛运用于广泛应用于电子通信、移

6、动互联、信息安全、车载导航、呼叫中心、教育医疗、航空军工、智能家居、智能玩具以及可穿戴式设备等众多行业。相比同行业语音识别引擎，讯飞语音识别引擎具有以下特点：支持中文、英文两个语种的识别，同时，还提供粤语、河南话、四川话等方言的识别。语音输入速度达180 字/分，识别结果响应时间低于200ms系统运行效率让信息沟通变得无比顺畅。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页，共 4 页 - - - - - - - - - 基于用户语音特征，建立个性化的词条语言模型，调整识别参

7、数，持续优化识别效果，提高用户的个性化词条识别准确率。基于用户语音特征，建立个性化的词条语言模型，调整识别参数，持续优化识别效果，提高用户的个性化词条识别准确率。语音听写使用超大规模的语言模型，对识别结果语句智能预测其对话语境，提供智能断句和标点符号的预测。语音识别过程框架语音听写把语音 (60 秒)转换成对应的文字信息，让机器能够“听懂”人类语言，相当于给机器安装上“耳朵” ，使其具备“能听”的功能。语音转写语音转写（ Long Form ASR ）基于深度全序列卷积神经网络，将长段音频（5小时以内）数据转换成文本数据，为信息处理和数据挖掘提供基础。实时语音转写实时语音转写（ Real-ti

8、me ASR ）基于深度全序列卷积神经网络框架，通过WebSocket 协议，建立应用与语言转写核心引擎的长连接，将音频流数据实时转换成文字流数据结果。离线语音听写把语音 (60 秒)转换成对应的文字信息，让机器能够“听懂”人类语言，相当于给机器安装上“耳朵” ，使其具备“能听”的功能名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页，共 4 页 - - - - - - - - - 语音唤醒设备(手机、玩具、家电等 )在休眠或锁屏状态下也能检测到用户的声音(设定的语音指令，即唤醒词)，让处于休眠状态下的设备直接进入到等待指令状态，开启语音交互第一步声纹识别声纹识别（Voiceprint Recognize ），是一项提取说话人声音特征和说话内容信息，自动核验说话人身份的技术关键词提取关键词提取是把文本中包含的信息进行结构化处理，并将提取的信息以统一形式集成在一起。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页，共 4 页 - - - - - - - - -

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

4.3 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 2022年语音识别引擎介绍 2022 语音识别引擎介绍

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：2022年语音识别引擎介绍 .pdf
链接地址：https://www.deliwenku.com/p-27984364.html