2022年DSP课程设计报告-语音识别 .pdf
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_1.gif)
![资源得分’ title=](/images/score_05.gif)
《2022年DSP课程设计报告-语音识别 .pdf》由会员分享,可在线阅读,更多相关《2022年DSP课程设计报告-语音识别 .pdf(20页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、DSP实验报告语音识别目录一、设计任务书 .1二、设计内容 .2三、设计方案、算法原理说明.21 系统概述 .22.硬件构成 .32.1 系统构成.32.2 系统主要功能模块构成.33.语音识别算法软件实现.43.1 系统流程图.43.2 语音信号的端点检测.53.3 特征参数的提取.73.4 建立语音库.83.5 特定人语音识别算法.9四、程序设计、调试与结果分析.12五、设计(安装)与调试的体会.18六、参考文献 .18附录课程设计成绩评定 .18名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 20 页 -DSP实验报告语音识别1 一、设计任务书语音技术,包括语音识别、语音合
2、成、关键词检出、说话人识别与确认、口语对话系统等,是现代人机交互的重要方式之一,具有广泛的应用前景。其中语音识别技术,尤其是连续语音识别技术,是最基础、最重要的部分,而且已经逐步走向成熟与实用。语音识别是研究使机器能够准确地听出人的语音内容的问题,即准确地识别所说的话,语音识别是近二三十年来发展起来的新兴学科,在计算机、信息处理、通信与电子系统、自动控制等领域中,在工业、军事、交通、医学等方面有着广泛的应用。语音识别装置有着重要的应用价值。而计算机技术=模式识别和信号处理技术及声学技术的发展也使满足各种需要的语音识别的实现成为可能。语音识别按不同的角度有以下几种分类方法:从所要识别的单位。有孤
3、立词识别、音素识别、音节识别、孤立句识别、连续语音识别和理解。目前已进入识别的语音识别系统是单词识别。以几百个单词为限定识别对象。从识别的词汇量来分。有小词汇(10-50个)、中词汇(50-200个)、大词汇(200以上)等。从讲话人的范围来分。有单个特定讲话人、多讲话人和与讲话者无关。特定讲话人比较简单,能够得到较高的识别率。后两者难度较大,不容易得到高的识别率。从识别的方法分。有模块匹配法、随机模型法和概率语法分析法。这三种都属于统计模式识别方法。这三种方法都建立在最大似然决策bayes判决的基础上,但具体做法不同,简述如下:a.模块匹配法。将测试语音与模块的参数一一进行比较与匹配,判决的
4、依据是是真测度最小准则。这里,除了参数分析的精度之外,选择何种失真测度至关重要。通常它要求对语音信息的各种信息具有顽健行,而且可以使用具备加权技术,使得测度更符合或更接近于最佳。b.随机模型法。这是一种使用隐马尔可夫模型(HMM)的概率参数来对似然函数进行估计和判决,从而得到识别结果的一种方法。由于HMM 具有状态函数,所以这种方法可以利用语音频谱的内在变化和他们的相关性。这表明,该方法能够较好地将语言结构的动态特性用到识别中来。c.概率语法分析法。适用于大长度范围的连续语言的识别情况,也就是说它可以利用连续语言中的形式语法约束的知识来对似然函数进行估计和判决。这里,形式语法可以用参数形式来表
5、示,也可以用概率估计的非参数形式来表示。甚至可以用两者结合的形式。因此该方法可将 a或b方法结合起来。除了上面三种方法,其他的识别方法包括人工神经网络语音语音识别、应用模型数学识别的语音识别语句等。对于汉字语音的识别,本质上和其他语音识别没有区别,也有其特点。主要是它宜于用音节作为基本研究对象,从而使特征的提取、字节的分割、动态时间匹配的选取等也具有特点。目前汉语识别的研究重点主要是以词为单位的孤立词识别和连续语音识别对等。名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 20 页 -DSP实验报告语音识别2 本实验的主要任务就是对以TMS320VC5402芯片为核心的系统硬件设计
6、进行了研究,通过TLC320AD50C对语音信号进行 AD转换,通过 TMS30VC5402对语音信号“0”、“1”、“2”进行训练和识别,并由对于的灯 LED0、LED1、LED2 亮来显示结果是否正确;该系统核心识别算法采用动态时间规整(DTW)算法,主要流程包括预处理、端点检测、提取特征值、模式匹配和模板训练,取得了很好的识别效果。二、设计内容(1)对DMA 进行初始化;(2)对A/D、D/A进行初始化;(3)编写 DMA 中断服务程序,实现语音信号的实时识别;(4)根据识别系统的类型选择一种识别方法,采用语音分析方法分析出这种识别方法所要求的语音特征参数,作为标准模式由机器存储起来,形
7、成标准模式库。(5)对语音进行特征参数的分析,语音信号经过相同的通道得到语音参数,生成测试模板;(6)将测试模板与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果,从而实现语音的识别。三、设计方案、算法原理说明1 系统概述语音识别系统的典型实现方案如图1 所示。输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、断点检测、预加重等。语音信号经过预处理后,接下来重要的一环就是特征参数提取,其目的是从语音波形中提取出随时间变化的语音特征序列。然后建立声学模型,在识别的时候将输入的语音特征同声学模型进行比较,得到最佳的识别结果。名师资料总结-精品资料欢迎下载-名师精心整理-第 3
8、 页,共 20 页 -DSP实验报告语音识别3 2.硬件构成2.1 系统构成这里采用 DSP芯片为核心(图 2),系统包括直接双访问快速SRAM、一路 ADC 一路DAC 及相应的模拟信号放大器和抗混叠滤波器。外部只需扩展FLASH 存储器、电源模块等少量电路即可构成完整系统应用。2.2 系统主要功能模块构成语音处理模块采用TI TMS320VC5402,其主要特点包括:采用改进的哈佛结构,一条程序总线(PB),三条数据总线(CB,DB,EB)和四条地址总线(PAB,CAB,DAB,EAB),带有专用硬件逻辑CPU(40位算术逻辑单元(ALU),包括 1 个 40 位桶形移位器和二个40位累加
9、器;一个 1717 乘法器和一个 40位专用加法器,允许 16位带或不带符号的乘法),片内存储器(八个辅助寄存器及一个软件栈),片内外专用的指令集,允许使用业界最先进的定点 DSP C语言编译器。TMS320VC5402 含 4 KB 的片内 ROM 和 16 KB 的双存取 RAM,一个 HPI(HostPortInterface)接口,二个多通道缓冲单口MCBSP(Multi-Channel Buffered SerialPort),单周期指令执行时间10 ns,带有符合 IEEE11491 标准的 JTAG边界扫描仿真逻辑。语音输入、输出的模拟前端采用TI 公司的 TLC320ADSOC
10、,它是一款集成 ADC 和 DAC 于一体的模拟接口电路,并且与DSP 接口简单,性能高、功耗低,已成名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 20 页 -DSP实验报告语音识别4 为当前语音处理的主流产品。16 位数据结构,音频采样频率为22205 kHz,内含抗混叠滤波器和重构滤波器的模拟接口芯片,还有一个能与许多DSP芯片相连的同步串行通信接口。TLC320AD50C 片内还包括一个定时器(调整采样率和帧同步延时)和控制器(调整编程放大增益、锁相环 PLL、主从模式)。TLC320AD50C 与 TMS320VC5402 的硬件连接,如图 3 所示。3.语音识别算法软
11、件实现3.1 系统流程图名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 20 页 -DSP实验报告语音识别5 3.2 语音信号的端点检测端点检测是语音识别系统中至关重要的一步,其算法的优劣在某种程度上也直接决定了整个语音识别系统的成败作为一个完整的语音识别系统,其最终实现及使用的效果不仅仅取决于识别的算法,许多相关因素都直接影响着应用系统的成功与否。端点检测的目的就是在复杂的应用环境下的信号流中分辨出语音信号和非语音信号,并确定语音信号的开始及结束。好的端点检测方法能改变语音识别软件存在的检测效果不理想、识别率低等问题。用短时能量短时过零率结合的方法,此方法实现简单,在噪声干扰不
12、大的环境中可以取得较好的识别效果,但在实时性上还有提高的空间,采用动态窗长短时能量的方法可以在识别的实时性和识别率上有所提高。为了减小语音帧的截断效应,需要加窗处理;本实验采用 hamming窗,因为矩形窗的主瓣宽度最小,旁瓣高度最高,会导致泄漏现象,哈明窗的主瓣最宽,旁瓣高度最低,可以有效的克服泄漏现象,具有更平滑的低通特性,应用更广泛。(1)短时能量定义为:语音信号强度的度量参数短时平均能量的主要用途:可以从语音中区别出浊音来,因为浊音时短时平均能量的值要比清音时短时平均能量的值大很多;可以用来区别声母和韵母的分界、无声和有声的分界等最为一种超音段信息,用于语音识别中。(2)短时过零率:波
13、形穿过横轴(零电平)的次数短时过零可以看作信号频率的简单度量:)(1020nSENnw|)1(sgn)(sgn|210nsnsZww0,10,1)sgn(xxx)()()(nwnsnsw10),12cos(46.054.0)(NnNnnw名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 20 页 -DSP实验报告语音识别6 浊音时能量集中于较低频率段内,具有较低的过零率,而清音时能量集中于较高频率段内,具有较高的过零率。(3)短时平均幅度:短时能量对高电平非常敏感(因为计算时用的是信号的平方),为此可以用另一种度量语音信号幅度值的变化函数。即“短时平均幅度M0”定义为:这里用计算加
14、权了的信号的绝对值之和替代平方和,因而短时处理的方法比较简单,硬件更易实现。因此本实验采用短时平均幅值和短时过零率相结合的双门限端点检测法双门限端点检测顾名思义需要两级检测,即短时平均幅值检测和短时平均过零率检测首先用短时平均幅值进行第一次判别,然后用短时平均过零率进行第二次判别开始检测之前,为计算整体平均幅值 pn,当短时平均幅值大于的整体平均幅值 pn或者第 m+1帧的短时过零率大于 3倍的第 m 帧的短时过零率即 Zm+13*Zm 就进入语音段当短时平均幅值小于的整体平均幅值 pn则认为进入结束用C语音实现的流程图如下:100)(NnwnSM名师资料总结-精品资料欢迎下载-名师精心整理-
15、第 7 页,共 20 页 -DSP实验报告语音识别7 两种可能会引起端点检测的误判,一是短时噪音引起的误判,此时则需要引入最小语音长度门限进行噪声判定,即语音段时间小于一定数值则认定为是噪声二是语音中字与字的时间空隙引起的误判,此时需要设定最大静音长度门限来降低识别的错误率。这种双门限端点检测是最常用的孤立词识别所采用的端点检测方法,其方法物理意义明确,计算量小,在安静的环境中有较好的识别率,但它也有很多不足,例如门限值需要由经验来设定,更换实验环境,则效果不理想等可以采用的改进方法:采用动态窗长短时能量检测语音端点。检测时首先要对语音信号进行加窗分帧处理,如果窗的长度过大,在提高检测速度的同
16、时导致识别率的下降,如果窗的长度过短,在提高检测识别率的同时增加了检测的时间考虑此种情况,采用动态窗长短时能量端点检测方法,在静音段使用大窗长,进入过度段后,改用小窗长,进入语音段则使用正常窗长短时能量主要起到的作用有以下几个方面:首先利用短时能量可以区分清音和浊音,因为浊音的能量要比清音的能量大得多;其次,可以用短时能量对有声段和无声段进行判定,对声母和韵母分界,以及对连字分界算法主要步骤如下:(1)定义变量 status,其值对应于端点检测的四个不同状态,0一静音段,1一过度段,2一语音段,3一结束(2)初始化 status 为0,采用大窗长进行端点检测,当短时能量超过低门限值,则将sta
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2022年DSP课程设计报告-语音识别 2022 DSP 课程设计 报告 语音 识别
![提示](https://www.deliwenku.com/images/bang_tan.gif)
限制150内