欢迎来到得力文库 - 分享文档赚钱的网站! | 帮助中心 好文档才是您的得力助手!
得力文库 - 分享文档赚钱的网站
全部分类
  • 研究报告>
  • 管理文献>
  • 标准材料>
  • 技术资料>
  • 教育专区>
  • 应用文书>
  • 生活休闲>
  • 考试试题>
  • pptx模板>
  • 工商注册>
  • 期刊短文>
  • 图片设计>
  • ImageVerifierCode 换一换

    2022年语音识别 .pdf

    • 资源ID:33654789       资源大小:686.73KB        全文页数:11页
    • 资源格式: PDF        下载积分:4.3金币
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录   QQ登录  
    二维码
    微信扫一扫登录
    下载资源需要4.3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    2022年语音识别 .pdf

    语音信号处理报告题目语音信号处理与产品销量的关系学生姓名卢润之学号0909102920 指导教师谢斌老师学院信息科学与工程学院专业班级智能科学 1009 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 11 页 - - - - - - - - - 摘要语音识别一直是人类的梦想,故事“ 阿里巴巴和四十大盗 ” 里面的 “ 芝麻开门” 便反映了古人对语音产品的一个构想。科技发展到今天,人类对语音识别的研究工作始于 20 世纪 50 年代。经过五十多年的努力和积淀,尤其进入90 年代后,语音识别技术进一步成熟,开始向市场提供商业化运作比较成熟的产品。许多发达国家如美国、日本、韩国以及IBM 、Apple 、 Nuance 、Microsoft等公司都为语音识别系统的实用化开发研究投以巨资。国内方面虽然起步较晚,但是也有诸如科大讯飞、 凌声芯、思必驰等公司顺应市场推出了一些相应的产品。在计算机技术中,语音识别是指为了达到说话者发音而由计算机生成的功能,利用计算机识别人类语音的技术。(例如,抄录讲话的文本,数据项; 经营电子和机械设备 ;电话的自动化处理),是通过所谓的自然语言处理的计算机语音技术的一个重要元素。 通过计算机语音处理技术, 来自语音发音系统的由人类创造的声音,包括肺,声带和舌头,通过接触,语音模式的变化在婴儿期、儿童学习认识有不同的模式,尽管由不同人的发音,例如,在音调,语气,强调,语调模式不同的发音相同的词或短语,大脑的认知能力, 可以使人类实现这一非凡的能力。我们可以重现, 语音识别技术不只表现在有限程度的电脑能力上,在其他许多方面也是有用的。近几年,消费者对于电子家电产品的需求越来越趋向于多样性和个性化,尤其是高端楼盘的开发商和家装消费者,他们对于中央空调产品的外观和功能等方面的期待越来越高, 传统的中央空调控制手动的方法已经无法满足人们的需求了,一种全新的控制方法的出现,成为了必然,那就是智能语音控制。本文将介绍诸多产品加入了语音控制模块之后的对产品销量的影响。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 11 页 - - - - - - - - - 第一章语音识别控制的概念1.1 语音识别控制的定义语音识别控制其实就是通过人的语言或者声音,对机器表达人所需要表达的意思, 以达到正确控制机器运转的目的。 而语音控制的最基本的就是语音识别,也就是说需要对说的话进行识别。语音识别主要是指用机器在各种情况下,根据信息执行人的各种意图,有效地了解、识别语音和其它声音。 它是近十几年来发展起来的具有理论价值和实用价值的新兴学科 :从计算机大学科角度看,可视为智能计算机的智能接口; 从信息处理学科来看 ,可视为信息识别的一个重要分支;从自动控制学科来看 ,又可视为模式识别的一个重要组成部分. 早在 18 世纪,人们就对语音学进行了科学研究,但由于各种条件的限制,语音识别仅在计算机技术迅速发展之后,才成为一个非常活跃的研究领域 . 60 年代末期 ,面对语音识别的种种困难,人们开始研究特定人、孤立词、小词汇量的识别,从而使语音识别的问题能够在当时的条件下得以开展;70 年代后期 ,特定人、孤立词、小词汇量的语音识别取得较为满意的效果,语音识别的研究则沿着特定人向非特定人、孤立词向连续词、小词汇量向大词汇量方向扩展研究领域和目标;80 年代中期以来 ,计算机技术、信息技术及模式识别等技术的迅猛发展,极大地促进了语音识别技术的发展。语音识别产品技术的应用可以分为两个发展方向:一个方向是大词汇量连续语音识别系统, 主要应用于计算机的听写机, 以及与电话网或者互联网相结合的语音信息查询服务系统, 这些系统都是在计算机平台上实现的;另外一个重要的发展方向是小型化、 便携式语音产品的应用, 如无线手机上的拨号、 汽车设备的语音控制、 智能玩具、 家电遥控等方面的应用, 这些应用系统大都使用专门的硬件系统实现,特别是近几年来迅速发展的语音信号处理专用芯片(Application Specific Integrated Circuit, ASIC ) 和语音识别片上系统(System on Chip,SOC)的出现,为其广泛应用创造了极为有利的条件。1.2 语音识别控制的方法语音识别方法主要是模式匹配法。在训练阶段,用户将词汇表中的每一词依次说一遍, 并且将其特征矢量作为模板存入模板库,在识别阶段, 将输入语音名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 11 页 - - - - - - - - - 的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。首先在训练过程中录入一条语音样本然后对样本进行采样、量化、滤除噪音对语音信号进行线性预测分析,将分析的语音特征保存在系统的数据库中,语音特征描述语音信号的波形和频谱信息。在使用阶段,将输入的语音命令提取特征后与数据库中的特征模型进行匹配检验。找到相匹配的语音样本,返回识别结果来触发相应的命令,这样就可以通过说话或者发出声音对机器进行控制。第二章语音产品调研国外对语音产品的研究开始比较早,早在1952年贝尔研究所 Davis等人研究成功了世界上第一个能识别10 个英文数字发音的实验系统。 经过五十多年的努力和积淀,尤其进入90 年代后,语音识别技术进一步成熟,开始向市场提供商业化运作比较成熟的产品。许多发达国家如美国、 日本、韩国以及 IBM 、Apple 、 Nuance 、Microsoft等公司都为语音识别系统的实用化开发研究投以巨资。下面介绍一些具体的语音识别产品。2.1Nuance的 Dragon Dictation Dragon Dictation(中文名称:声龙听写)是由Nuance 公司推出的适用于 iPhone ,iPad 和 iPod touch用户的一款语音识别应用软件,将用户的语音转换成文字。软件目前支持美国英语、英国英语、澳大利亚英语、法语、德语、意大利语、西班牙语、日语、韩语和中文。Dragon Dictation可以将我们说的话转换成文字,然后直接发送短信、电子邮件或是发布到微博等SNS 网站上。 使用剪贴板粘贴语音转成的文本保存,做其他用途。 同时还有有智能选字、 选词的列表建议。 语音操控的修正界面为用户提供了更方便的修正功能。本款产品的系统要求有:(1) 需要网络连接(无线 Wi-Fi 或 3G/EDGE ) ;(2)适用于 iPad? 、iPhone?和第 2 代及第 3 代 iPod Touch?(需要外接麦克风)。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 11 页 - - - - - - - - - 下图为该款软件的界面截图。 我们可以看到通过该款软件可以将我们的声音转化为文字,并可以通过手动的方式对识别出来的信息进行矫正修改。图 2.1 Dragon Dictation能界面2.2Google公司的 Voice Actions Voice Actions是 google 推出的语音搜索应用程序,通过它,你可以用语音给运行Voice Actions 的手机下命令,诸如发信息、打电话、听音乐等。它提供了非常坚实可靠的声音识别引擎,较高识别度令人称奇。 并且它也推出了针对中国用户的中文版。另有消息称, Google 的 Android团队已经在开发类似iPhone 4S上的Siri 语音助理功能了,开发代号为Majel ,这个名字来自于星际迷航里的联盟电脑发出的语音。除了要像Siri那样听懂人类的自然语言,它还可控制手机和应用程序,这是目前Siri 都还做不到的。图 2.2 所示为 Voice Actions的功能界面图。相比Dragon Dictation,google公司的这款产品有了一定的智能程度,能够一定程度上听懂人说的话并按人的要求执行相应的操作。 虽然还只是一些简单的诸如发信息、打电话、听音乐的指令,但是相对较高的识别率还是让它能够在日常生活中为使用者提供不少方便。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 11 页 - - - - - - - - - 图 2.2Voice Actions的操作界面2.3 苹果公司的 Siri Siri 是苹果公司在其产品iphone4s上应用的一项语音控制功能。 技术来源于美国国防部高级研究规划局所公布的CALO 计划:一个让军方简化处理一些繁复庶务, 并具学习、 组织以及认知能力的数字助理,其所衍生出来的民用版软件 Siri 虚拟个人助理。Siri 可以令 iPhone4S变身为一台智能化机器人,利用Siri 用户可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟等。Siri 可以支持自然语言输入,并且可以调用系统自带的天气预报、日程安排、搜索资料等应用。还能够不断学习新的声音和语调,提供对话式的应答。Siri 目前支持四种语言:英文,法文,德文,日语。其中英文分美式,英式,澳大利亚式。其最大的特色, 则是人机的互动方面, 不仅有十分生动的对话接口,其针对用户询问所给予的回答, 也不至于答非所问, 有时候更是让人有种心有灵犀的惊喜,例如使用者如果在说出、输入的内容包括了drunk 、home 这些字(甚至不需要符合语法,相当人性化. ),Siri 则会判断为喝醉酒、要回家,并自动建议是否要帮忙叫出租车。图2.3 的 Siri 界面截图我们可以看出来Siri具有相当高的智能程度。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 11 页 - - - - - - - - - 图 2.3 Siri界面截图2.4Vocre Vorce 是一款非常受欢迎的iPhone 口译应用,它旨在帮助经常处于不同语言环境中的人们轻松突破语言障碍、实现自由沟通。 有了 Vocre ,你在与外国人聊天时,只需打开Vocre ,选择对方的语言和性别,剩下的事情Vocre 会帮你解决。当你的iPhone 竖着放时对它讲话,把它横过来,它会自动翻译你对它说的话。 Vocre 通过 Nuance 将语音转换成文字,通过他们自己的众包机器学习技术,将文字翻译之后,再通过iSpeech重新将文字转换成语音。通过Vorce 软件,来自不同国家有不同语言背景的两个人可以自由交流。2.5 IBM的 ViaVoice 和微软的 Speech SDK IBM ViaVoice是一种通过麦克风输入中文的一种程序。特别适合电脑初学者,您所需要做的仅仅是对着话筒喊出您要输入的字符,ViaVoice就会自动判断并且帮你输入汉字。作为语音识别软件系列的产品,它可以使PC、手提设备、汽车系统和自动客户服务系统之间的信息交流变得轻松快捷。作为第一个全功能的语音指令桌面程序,运行在Windows下的 ViaVoice支持 Microsoft Office 2003,为不同要求的用户提供了精确的语音识别技术。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 11 页 - - - - - - - - - 与其它语音识别系统一样, 它能够不断学习和适应用户的特定语音,并不断提高识别的准确度。 ViaVoice同样可以对识别出来的文本进行修改纠错,这也让软件变的更加实用。Speech SDK 是微软一强大力作的语音识别系统。它的功能与IBM 的ViaVoice类似,可以将用户的语音信号转化为文字,省去打字的繁琐。原程序带的是英文引擎, 外带中日文语言包, 可支持中文和日文输入。 在进行简单的语音训练之后即可使用,也具有较高的辨识度。比较 ViaVoice和 Speech SDK,VIavoice的优点在于纠错功能比较好用并且对短的字词识别度较高,而Speech SDK的优点在于一方面它很好与微软的语音输入法结合起来,另一方面它对整句的识别度比较高。当然,不仅仅在手机电子产品中语音识别控制有很大应用,在其他方面比如说车载语音识别控制系统中也有很大的应用:2.6 汽车产业中的语音识别产品随着语音识别技术应用的不断深化, 汽车工程师也在寻求将其更好地整合到汽车系统中的方法。 起亚公司顺应潮流开始在其车型上采用语音控制系统,并于 2010 年 1 月份在美国消费电子展上推出了UVO 系统。起亚的 U V O 系统构建于微软 Windows嵌入式汽车软件平台上。 该系统可以让驾驶者管理音乐文件,还可以对手机发出指令,包括发短信和打电话。UVO 系统可以学习驾驶者的发音模式,然后不断改进识别的精确度,这样说话人可以使用大量的词汇。其最大的特点就是拥有强大的声控操作系统,这可以让司机在安全驾驶的前提下控制这套系统, 而不用让眼睛偏离路面。 这样大大提高了驾驶者在驾驶过程中的安全性,避免驾驶者在驾驶过程因为做其他事情而导致交通事故的发生。2.7 电视产业中的语音识别产品为了让智能电视更加聪明, 用起来更为得心应手, 海尔云搜索电视对系统进行了全面优化,采用了双核CPU+ 双核 GPU 的硬件配置和安卓4.0 系统等,全新的智能搜索引擎,让搜索更加快速和准确。特别是该系列电视搭载的全新sime 语音交互技术,可以智能辨别语义、实现人机对话交流等人性化搜索行为,帮助广大用户摆脱了互联网时代庞杂信息的困扰,大大节约了用户的操作时间。就连不会上网搜索的老人,也能通过人机对话,搜索自己喜爱的频道。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 11 页 - - - - - - - - - 第三章加入语音模块之后对产品销量的影响接下来一些例子来说明,语音模块的嵌入之后对销量的影响:例子一:据外国媒体报道, 美国一家市场调查公司近日公布称,搭载语音识别功能的智能手机销量将在2013年有望突破 10 亿部。调查报告显示, 2012 年搭载语音识别功能的智能手机销量为8 亿 5600万部,预测 2013年年末该数据将上涨22.5% ,达到 10 亿 4900万部,截止到 2017 年预计将达 14 亿 2100 万部。语音识别手机的销量在所有手机中的比率将由 2013 年的 63% 上涨到 2017年的 75% 。而该类手机显然在成熟市场(mature market)中比生长市场( emerging market)更受欢迎。据预测,截止 2017 年,北美及西欧等市场,该类手机市场占有率将超过90% ,这是由于语音识别功能一般多搭载在高端机上,而非中低价机, 显然成熟市场的顾客更多的倾向于高端机。语音识别功能第一次亮相于iPhone 的 Siri ,此后各大智能手机品牌也相继推出了自家的语音识别功能,特别是搭载于安卓OS 的谷歌 Google Now 语音识别功能更是可以与Siri 分庭抗礼。例子二:根据该调查报告, 在挑选智能电视产品时, 消费者目前最看重的两个功能分别是语音识别和体感识别。调查报告显示, 在消费者挑选智能电视的时候,影响消费者的主要因素为品牌、价格和画质。其中,语音识别和体感识别功能消费者需求度最高,分别为56% 和 53% 。昨天,消费电子产品信息化推进委员会、中国电子商会、 国家广播电视产品质量监督检验中心联合发布了一份调查报告,称目前国内智能电视渗透率已达20% ,预计今年年底将突破30% ,销量将超过 800 万台。而根据该调查报告, 在挑选智能电视产品时, 消费者目前最看重的两个功能分别是语音识别和体感识别。调查报告显示,在消费者挑选智能电视的时候,影响消费者的主要因素为品牌、价格和画质。 其中,语音识别和体感识别功能消费者需求度最高,分别为56% 和 53% 。在价格方面。5000 8000元之间中端价位的智能电视最受消费者青睐,需求指数达 42% 。不过有意思的是,在智能电视、云电视概念的区别界定调研名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 11 页 - - - - - - - - - 中,仅有 23% 的消费者明晰二者之间的区别。由此可见,智能语音控制的产品不仅具有传统的功能还能根据人们的语音指挥 ,由原来的被动静止结构转变为具有主动识别语音执行的智慧工具,优化人们的生活方式 ,帮助人们有效安排时间 ,增强家居生活的安全性、舒适性,对产品的销量的促进也是很明显的。第四章语音控制的发展事实上,语音技术早就是业内关注的焦点之一。早在 2000年,比尔盖茨就曾提出“未来 10 年是语音的时代”。而IBM 、英特尔和摩托罗拉等IT 巨头也都在语音领域有了相当深厚的技术积累。随着消费者对语音技术认识的加深,这个行业正在迎来蓬勃发展的时间窗口。刘庆峰说,“现在,语音技术还是处于技术转化为产品、 产品获得消费者认可的阶段, 在应用端逐步成型的过程中,未来 3 至 5 年,这个行业会有一次大的爆发。”对于智能手机和平板电脑这种移动互联终端,语音控制、语音输入则将是比手指更加灵活、高效、富有趣味性的人机交互方式, 就像众多科幻电影中曾经多次描述的那样,语音操控未来注定会成为移动智能终端产品实现人机交流的主导,而无论是哪家企业率先在这方面取得突破,它将很有可能重演触控时代苹果公司的崛起神话名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 11 页 - - - - - - - - - 总结随着人们对于语音控制的理解的深入,对其中的产品要求也越来越高, 我相信,谁能尽早, 尽好将这一模块加入产品的设计当中去,让产品体验更加舒适和和谐,自然,销量就不成问题了。结当前语音识别产品市场,语音识别产品在我们生活的各个领域有着越来越广泛的应用。从移动终端到PC 终端,从电信行业到汽车行业,语音识别产品的出现极大的方便了我们的生活, 为我们提供了一种更为亲切便捷的人机交互方式。同时,智能语音行业具有很高的行业技术壁垒,必须有时间的积累和资金的投入才能做出适应市场需求的产品。 我们可以发现当前市场上主流的语音识别产品都是诸如 google 、微软、苹果这样的行业巨头推出来。对比国内和国外的相应语音识别产品, 国内语音市场主要以语音合成为主,国外语音市场主要以语音识别为主,国内的技术发展水平相比国外仍然存在一定的差距,这也激励我们要用更大的付出去努力追赶。展望未来语音识别产品, 以产业界为创新主体, 包括语音识别在内的信息处理发展将需要迫切与云计算相结合,从计算、存储和群体智慧等全方位产生新的突破是可以预期的。 未来语音识别市场还有很大潜力可以挖掘,出现爆发式增长也是指日可待。 相信未来随着科技的发展, 语音识别产品终将走入寻常百姓家为人们的生活提供更大的便捷。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 11 页,共 11 页 - - - - - - - - -

    注意事项

    本文(2022年语音识别 .pdf)为本站会员(H****o)主动上传,得力文库 - 分享文档赚钱的网站仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知得力文库 - 分享文档赚钱的网站(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于得利文库 - 版权申诉 - 用户使用规则 - 积分规则 - 联系我们

    本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知得利文库网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

    工信部备案号:黑ICP备15003705号-8 |  经营许可证:黑B2-20190332号 |   黑公网安备:91230400333293403D

    © 2020-2023 www.deliwenku.com 得利文库. All Rights Reserved 黑龙江转换宝科技有限公司 

    黑龙江省互联网违法和不良信息举报
    举报电话:0468-3380021 邮箱:hgswwxb@163.com  

    收起
    展开