2022年语音识别程序开发方法 .pdf
《2022年语音识别程序开发方法 .pdf》由会员分享,可在线阅读,更多相关《2022年语音识别程序开发方法 .pdf(9页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、VB6.0 环境下的语音识别程序开发方法王 军童强(湖北师范学院计算机科学与技术学院,湖北黄石 435002 )摘要:语音识别技术是将音频数据转换成文本或其它形式的计算机可以处理的信息的技术。而语音识别程序就是基于该类技术的计算机应用程序,这类应用程序也正越来越多的受到广大用户的青睐。 通过介绍一种基于VB6.0 环境下的语音识别程序的开发方法,以此开发方法为切入点分析该开发方法的优缺点及其应用前景,并结合当前技术的发展趋势展望这类技术的发展方向和可能的发展结果。关键词: 语音识别程序;VB6.0 环境;语音识别程序开发方法The method of Speech Recognition pr
2、ogram development in VB6.0 Wangjun TongQiang (College of Computer Science & Tecnology ,Hubei normal University,Huangshi 435002 china)Abstract: Speech recognition technology is the audio data into text or other forms of information that could be dealt with computer technology. The speech recognition
3、process is based on such technology, computer applications, such applications are more and more favored by the majority of users. In this paper, by introducing the VB6.0 environment based on the speech recognition program to develop methods and entry points to the development of methods for the anal
4、ysis of the advantages and disadvantages of the development methodology and its application prospects, combined with the current trend of technological development prospects of such technologies the direction and development of possible results. Key words:Speech recognition procedures VB6.0 program
5、development environment Speech recognition devolopment method 中图分类号:文献标志码:A 1 引言语音识别是一个复杂的过程,语音识别技术, 也被称为自动语音识别Automatic Speech Recognition ,(ASR) ,其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、 二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。1 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师
6、精心整理 - - - - - - - 第 1 页,共 9 页 - - - - - - - - - 语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。 语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。2 语音识别技术具有广阔的应用前景, 即使语音识别技术目前尚未成熟,很多领域也积极将其引入,掌握语音识别程序的基本开发方法有助于更好地运用这一新技术。2 基于 VB6.0 环境下的语音识别程序的开发方法2.1 开发工具语音识别程序一般是基于语音开发工具包开发的,目前常用的工具包有Microso
7、ft Speech SDK 和 IBM VoiceType两种。而前者毋庸置疑是基于Windows平台下开发该类应用程 序 的 最 佳 工 具 , 其SAPI ( Microsoft?Win32? -compatible speech application programming interface) 提供了实现文字- 语音转换 (Text-to-Speech)和语音识别 (Speech Recognition)程序的基本函数,大大简化了语音编程的难度,降低了语音编程的工作量。3 因此Microsoft Speech SDK 备受语音识别程序开发者们的青睐。同时在Microsoft Spee
8、ch SDK 中还包含一系列支持COM (组件对象模型)组件的语音自动控制接口, 只要具备支持 OLE(对象连接与嵌入) 自动控制的通用语言就可实现该类语音识别应用程序的开发。而VB语言正是具备以上条件的通用性语言,因此在VB6.0 环境下实现语音识别程序的开发就变得十分简单 , 这是因为在一些基于Windows 的语言开发工具中都会提供与语音识别引擎的良好接口,这使得在基于这些语言开发工具下开发语音识别程序变得异常方便。在 Visual Basic环境下,利用事件驱动的编程机制、新颖易用的可视化设计工具,使用 Windows内部的广泛应用程序接口(API)函数,以用动态链接库(DLL)、对象
9、的链接与世隔嵌入( OLE )、开放式数据连接(ODBC )等技术,可以高效、快速地开发Windows环境下功能强大、图形界面丰富的应用软件系统。4 基于VB6.0 环境下的语音识别程序的软硬件配置要求为:安装Microsoft Speech SDK 5.1 ,安装麦克风,安装VB6.0 集成开发环境,安装Notepad2 软件(用于编写XML文件,其他能用于编写XML文件的工具软件也可)。2.2 开发目标语音识别系统的心脏即为语音识别内核,语音识别内核能识别音频输入信息并将其转化为应用程序能够识别的目标文本,该目标文本最终被作为命令输入来控制程序的执行。根据识别的对象不同,语音识别任务大体可
10、分为3 类,即孤立词识别 (isolated word recognition) ,名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 9 页 - - - - - - - - - 关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别的任务是识别事先已知的孤立的词,如“ 开机 ” 、“ 关机 ” 等;连续语音识别的任务则是识别任意的连续语音, 如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字, 而只是检
11、测已知的若干关键词在何处出现,如在一段话中检测“ 计算机 ” 、“ 世界” 这两个词。 2 根据语音设备和通道,可以分为桌面 (PC)语音识别、 电话语音识别和嵌入式设备(手机、 PDA 等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。由此可见,语音识别程序的开发范围是非常广泛的。这里通过VB6.0这种最常见而且通用性非常强的开发平台来对该类应用程序的开发方法进行实和践推广,并引发一些开发人员对该类应用程序的关注和更深入的研究。2 2.3 基于 VB6.0 环境下语音识别程序的开发过程实例(1)参见 2.1 中基于 VB 语言的语音识别程序的软硬件配置要
12、求安装相关软硬件。(2)建立用户词汇表。用户词汇表即用户对应用程序所说的内容,用户对应用程序所说的词或词组所组成的集合便构成用户词汇表。用户词汇表也是开发语音识别程序必不可少的组成部分。 用户对应用程序的控制只能通过用户词汇表中词或词组来实现,用户词汇表中的内容将会与应用程序中的相关命令对应而最终转化为可供应用程序执行的控制命令。用户词汇表中的内容也是用户在进行音频信息输入时唯一可被输入的信息,音频输入信息的类容必须在词汇表所覆盖的内容范围之内,一旦其超出词汇表范围,应用程序将无法识别。另外,词汇表中的具体词或词组的内容一般与其所要实现的控制命令相对应,如在词汇表中定义“stop ”这个词时,
13、一般是要实现关闭程序的命令,当用户向应用程序说出“ stop ”时,应用程序便可执行关闭命令。对于本程序中建立词汇表是要用到Notepad2这个文本编辑工具。同时在建立用户词汇表时还必须遵循相关语法规则。下面演示具体实现过程:打开 Notepad2,并将以下代码编写到Notepad2的空白编辑框中 - - - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 9 页 - - - - - - - - - now start now next now stop now paus
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年语音识别程序开发方法 2022 语音 识别 程序 开发 方法
限制150内