语音信息处理幻灯片.ppt
《语音信息处理幻灯片.ppt》由会员分享,可在线阅读,更多相关《语音信息处理幻灯片.ppt(46页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、语音信息处理第1页,共46页,编辑于2022年,星期二第一讲 绪论1.语音信号处理的概念2.语音信号处理的学科基础3.语音信号处理的分支和应用4.语音信号处理的发展历史5.本课程的内容和特点6.参考书目7.学习要求第2页,共46页,编辑于2022年,星期二1.语音信号处理的概念n语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。第3页,共46页,编辑于2022年,星期二n2.语音信号处理的学科基础 语音识别语音识别 声学声学 信息论信息论 语音、语音、语言学语言学 信号信号 处理处理 人工人工 智能智能 模式模式 识别识别 数理数理 统计统计 听写机听写机 查询查询 系统系统
2、电话电话 拨号拨号残疾人残疾人用品用品消费消费电子电子实际应用实际应用学科基础学科基础语音识别的应用背景和学科基础语音识别的应用背景和学科基础 第4页,共46页,编辑于2022年,星期二3.语音信号处理的分支和应用n语音识别n语音合成n语音编码n说话人识别第5页,共46页,编辑于2022年,星期二3.1 语音识别(1)语音识别研究的目的就是研究出一种具有听觉功能的机器,能直接接受人口呼的命令,理解人的意图,并做出相应的反应。第6页,共46页,编辑于2022年,星期二语音识别的应用 语音识别技术在信息处理领域的首要的巨大应用将在于提供了一种全新的人机交互形式。n苹果的Siri。nSiri恶搞,国
3、人Siri,Siri惊魂,Siri日式英语。n语音输入法。第7页,共46页,编辑于2022年,星期二语音识别的分类n针对说话人:特定说话人语音识别和非特定说话人语音识别n针对词汇量:小词汇量、中词汇量和大词汇量的识别n针对说话方式:孤立词识别和连续语音识别 n针对识别环境:实验室环境语音识别、电话语音识别和广播语音识别 第8页,共46页,编辑于2022年,星期二语音信号和自然语言的多变性和复杂性语音信号和自然语言的多变性和复杂性(1)(1)连续语音词与词之间没有明显的停顿,词与词之间的连续语音词与词之间没有明显的停顿,词与词之间的 分割比较困难;分割比较困难;(2)(2)每一个基本的声学识别基
4、元(如音素)受前后音素发每一个基本的声学识别基元(如音素)受前后音素发 音方式的影响(协同发音)使特征变得不稳定音方式的影响(协同发音)使特征变得不稳定 (3)(3)不同人、不同心理和生理以及在不同的说话环境下说不同人、不同心理和生理以及在不同的说话环境下说 同一词时,声学信号特征会发生变化;同一词时,声学信号特征会发生变化;(4)(4)一个词的读音不仅包含了词义特征,而且还包含了说一个词的读音不仅包含了词义特征,而且还包含了说 话人性别、年龄、情绪等大量与词义无关的信息,而话人性别、年龄、情绪等大量与词义无关的信息,而 这些信息的分离是不容易的。这些信息的分离是不容易的。(5)(5)自然语言
5、的多变性难以借助于一些基本语法规则进行自然语言的多变性难以借助于一些基本语法规则进行 描述,因而使计算机编程变得困难。描述,因而使计算机编程变得困难。(6)(6)语音信号往往受到其他信号的干扰和信道的影响。语音信号往往受到其他信号的干扰和信道的影响。第9页,共46页,编辑于2022年,星期二特定 任意孤立 字 词短语句子朗读自然口语口语对话 小(几十)中(几百)大(几千)第10页,共46页,编辑于2022年,星期二3.2 语音合成 语音合成是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。(让电脑说话)第11页,共46页,编辑于2022年,星期二语音合成的应用
6、1海量信息查询类业务n大部分海量信息如考试查分、征婚启事、人才信息、电话广告等,由于其内容庞大,往往无法在短期内完成录音,即使可以事先录音,也需要很长的制作周期,而且在量大的时候肯定会出现人为错误;采用语音合成技术可以节约大量人力,缩短开发周期,而且能够完全保证了所有信息100正确。2动态信息查询类业务n声讯节目逐渐地由现在娱乐型节目为主的节目构成转向以应用型的节目为主,而多数的应用类节目对实时性要求比较高,如证券行情、订票、订房等,上述应用中动态信息不可能事先录音,需要实时地从数据库中读取,动态进行语音合成,保证信息的实时性。第12页,共46页,编辑于2022年,星期二n自动报时、报警、公共
7、汽车或电车自动报站n打印出版过程中的文本校对。n电子函件及各种电子出版物的语音阅读。n列车惊魂,语音合成配音nTom猫咆哮体n马丁路德金演讲n大脑扫描,语音合成第13页,共46页,编辑于2022年,星期二第14页,共46页,编辑于2022年,星期二语音合成的例子(霍金)第15页,共46页,编辑于2022年,星期二 不能说话和做手势,如何演讲写字?不能说话和做手势,如何演讲写字?在霍金的眼镜上,约距右颊一英寸处,安装了负责侦测肌肉活动的红外线发射器及侦测器,譬如他想打招呼,说声你好,他先以眼球控制红外线感应器,选定在屏幕上轮流出现的英文字母,当计算机出现他想要的H时,霍金再动眼球,这样计算机就会
8、不断显示以H为字头的英文字,当HELLO出现时,他又动一下以选定这个字,当他造句完毕后,才把句子传至合成器发声。因此霍金要说一句话,就要逐字逐句输入计算机,再由语音合成器将文字化成声音,一分钟只能处理3-5个字。第16页,共46页,编辑于2022年,星期二科大讯飞语音合成在线演示nhttp:/ 语音编码 语音编码的研究目的是如何在尽量减少失真的情况下高效率地对模拟语音信号进行数字表达。VOIP (Voice Over Internet Protocol)第18页,共46页,编辑于2022年,星期二语音编码的应用n数字通信系统n移动无线通信n保密语音通信第19页,共46页,编辑于2022年,星期
9、二3.4 说话人识别 说话人识别(声纹识别)可分为两种:n说话人辨认n说话人确认 第20页,共46页,编辑于2022年,星期二n目前,声纹识别已经在证券交易、银行交易、身份证、信用卡的认证等领域均有应用。在国外,声纹识别技术已经取得了较为广泛的应用。美国已把声纹识别用到保险、银行等行业,迪拜在交通管理上使用声纹验证来确认驾驶员身份,戴尔公司已经实施了声纹认证用于网上订购,菲律宾政府的养老金系统现在也可以通过声纹识别来完成身份认证。n在国内,声纹识别技术目前已广泛应用于嵌入式系统,同时其他方面的应用也逐渐兴起,如招商银行已经于2008年8月开始与以色列的PerSay公司进行声纹识别方面的项目合作
10、。第21页,共46页,编辑于2022年,星期二n声纹识别已成功应用在司法鉴定领域。利用声纹识别技术确定犯罪证据,如通过分析电话录音资料来确定犯罪嫌疑人的身份和犯罪行为等做法,已在一些刑事案件的侦破中得到应用。美国在1971年就公开认可使用声纹鉴定。n在国内,随着各种录音设备的普及,声音材料的留存十分方便,因此一些案件就可以借助声纹鉴定来协助案件的侦查和审理。声纹鉴定已经成为国内司法鉴定机构的一种重要技术手段,其在司法活动的某些方面已然发挥出显著的作用。第22页,共46页,编辑于2022年,星期二第23页,共46页,编辑于2022年,星期二第24页,共46页,编辑于2022年,星期二声纹识别的应
11、用还杰克逊一个“清白”。爆炸新闻拉登之死。车臣总统杜达耶夫。第25页,共46页,编辑于2022年,星期二4.语音信号处理的发展历史n国外发展历史 人们在19世纪就已经发现,元音主要是靠第一共振峰和第二共振峰来区别,声母的感知主要靠共振峰的弯曲方向和力度。但是,真正的语音识别却是始于1952 年,当时贝尔实验室Davis等人通过提取语音的第一、第二共振峰作为语音特征参数,采用专用硬件实现了一台10个英文数字的语音识别系统Audry System。第26页,共46页,编辑于2022年,星期二国外发展历史n20世纪50年代末60年代初,集成电路出现,语音信号终端系统从模拟方式演变为全数字系统方式模拟
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 语音 信息处理 幻灯片
限制150内