共查询到20条相似文献,搜索用时 93 毫秒
1.
基于连续高斯混合密度HMM的汉语全音节语音识别研究 总被引:5,自引:0,他引:5
本文在大量语音分析实验的基础上,对HMM用于汉语全音节语音识别进行了较为深入的探讨,建立了一个连续高斯混合密度HMM的汉语全音节语音识别系统.该系统在训练算法上撇开了传统的Baum-Welch算法,代之以计算复杂度小、存储量小、迭代次数少且具有自动分割效应的分段K平均算法。对于HMM的模型单元的选择,单元的结构以及模型参数的选取,充分考虑了汉语语音的特点;并在语音特征上做了深入的实验分析工作,采用了符合人耳听觉特性的Mel-Scaled参数,用FFT倒谱代替了LPC倒谱,同时利用了语音的动态谱特征和能量特征。另外,本文还针对汉语声母的特点,独特地提出了变帧移分析策略。整个识别系统的首选正识率为91.1%. 相似文献
2.
基于掩蔽特性的噪声环境下语音识别新特征 总被引:4,自引:1,他引:3
语音识别系统的识别率在噪声环境中下降很大。本文根据人耳的听觉特性,提出一种基于人耳听觉掩蔽特性的抗噪声特征提取方法。该方法先求取噪声语音的掩蔽特性,在此基础上再计算Mel倒谱系数用于语音识别。通过对TIMIT数据包的 0~9十个英语数字在 NoiseX92的各种噪声下进行了识别试验。其中在信噪比 0dB条件下,在 3种噪声条件下识别率平均提高 152%,实验表明新方法对于各种噪声环境下的识别率有显著提高。 相似文献
3.
为了提高感知线性预测系数(PLP)在噪声环境下的识别性能,使用子带能量偏差减的方法,提出了一种基于子带能量规整的感知线性预测系数(SPNPLP)。PLP有效地集中了语音中的有用信息,在安静环境下自动语音识别系统使用PLP可以取得良好的识别率;但是在噪声环境中其识别性能急剧下降。通过使用能量偏差减的方法对PLP的子带能量进行规整,抑制背景噪声激励,提出了SPNPLP,增强自动语音识别系统在噪声环境下的鲁棒性。在一个语法大小为501的孤立词识别任务和一个大词表连续语音识别任务上做了测试,SPNPLP在这两个任务上,与PLP相比,汉字识别精度分别绝对提升了11.26%和9.2%。实验结果表明SPNPLP比PLP具有更好的噪声鲁棒性。 相似文献
4.
5.
6.
7.
本文在分析了汉语单音节发音的音节结构的基础上,定义了基于声韵母类的语音识别单元,从声学角度确定了用于汉语全音节识别系统的声学单元,并研究了这些声学单元的检测一致性及基于这些单元的识别系统的鲁棒性。文中还对大量的发音人的声母类发音的长度作了统计,给出了基于本文给出的分割算法和本文定义的声母单元下的声母长度预分类方法。通过在非特定人全音节汉语语音识别系统上的应用表明,本文定义的语音识别单元具有很高的检测一致性,建立在其上的识别,系统也具有很高的鲁棒性;文中给出的预选方法在最好的情况下,可以减少一半以上的运算量,而预选精度几乎达到100%。 相似文献
8.
9.
10.
11.
12.
基于随机轨迹模型的汉语连续语音识别方法研究 总被引:1,自引:0,他引:1
本文在指出隐马尔可夫模型(HMM)不合理假设的基础上,介绍了随机轨迹模型(STM)的理论机制及优越性。随机轨迹模型将语音基元的声学观察表示为参数空间中轨迹的聚类,并将轨迹建模为状态随机序列概率密度函数的混合,该模型可以克服HMM的不合理假设,在理论上更合理。根据STM的特点及汉语语音特色,本文对汉语连续语音识别基元的选取进行了讨论,提出了音素类单元作为识别系统的识别基元。基于STM的汉语连续语音识别的实验结果证明了STM的有效性和音素类单元的一致性。 相似文献
13.
为实现鲁棒的声韵母切分,以满足大词汇量连续语音识别系统的需求,提出一种建立损失函数,并利用浊音的“准”周期性和声母时长进行声韵母切分的方法。首先计算语音的自相关函数,接着建立代价损失函数,对计算结果采用动态规划方法检测浊音,然后根据声母时长分布规律确定声母的检测范围,最后在检测范围内对浊音段起始点前后采用听觉事件检测方法分割出声韵母。实验结果表明,采用动态规划方法相对于阈值方法提高了浊音段的检测性能,在浊音段的基础上对声韵母进行切分能够提高切分的正确率,减少噪声及汉语音变现象的影响,切分性能受声母发音方式影响较小。 相似文献
14.
早晚期混响划分对理想比值掩蔽在语音识别性能上的影响 总被引:2,自引:0,他引:2
真实环境中存在的噪声和混响会降低语音识别系统的性能。封闭空间中的混响包括直达声、早期反射和后期混响3部分,它们对语音识别系统具有不同的影响.我们研究了早期反射和后期混响的不同划分方法,以其中的早期反射为目标语音,计算出了不同的理想比值掩蔽并研究了它们对语音识别系统性能的影响;在此基础上,利用双向长短时记忆网络(BLSTM)估计理想比值掩蔽,测试它们对语音识别系统性能的影响.实验结果表明,基于Abel早期反射和后期混响的划分方法,理想比值掩蔽能够降低词错误率约2.8%;基于BLSTM的估计方法过低估计了理想比值掩蔽,未能有效提高语音识别系统的性能。 相似文献
15.
汉语连续语音识别中语音处理和语言处理统合方法的研究 总被引:5,自引:1,他引:4
提出了一种语音处理和语言处理按帧同步统合的汉语连续语音识别方法。该方法把基于 CFG语言模型和 Top Down型句法分析器的语言处理过程结合进基于有限状态自动机控制的 One Pass Viterbi语音识别算法中,实现了帧同步的语音语言处理的统合。为完成帧同步句法分析的单词预测和语音识别过程的结合,本文提出了一种类似于Earley法的 TopDown型句法分析方法以及 One Pass Viterbi算法中的有限状态自动机动态展开建立法. 60个音素单位和 8个声调单位的 HMM作为识别用基元模型被用于识别实验,识别结果表明,对于一个识别困难度(Perplexity)为27.3的任务(Task)的识别系统,利用本文提出的方法,10名话者发音的 1070句子的平均识别率达到 94.4%,比利用传统的基于单词确认(Word Spotting)以及从单词串(列)(lattice)进行句法分析的阶层性语音·语言统合方式的识别率提高约8%. 相似文献
16.
几种高鲁棒性通道及说话人自适应语音识别算法研究 总被引:1,自引:1,他引:0
鲁棒性问题是决定语音识别技术能否在实际中得以应用和推广的关键问题之一。概括起来说,导致语音识别系统性能变坏的原因大体上来自三个方面,即噪声(加性噪声、卷积噪声)、信道变化和不同的讲话者(不同的声道形状、不同的发育方式等)。本文对三种高鲁律性自适应语音识别方法进行了研究和改进,并对它们的性能进行了比较,这三种方法分别是VQ码本自适应法、HMM参数自适应法和基于正则相关分析的谱变换补偿方法。实验结果表明,这三种方法都能提高非特定人语音识别系统对信道以及说话人的鲁棒性,而且基于正则相关分析的稻变换补偿方法具有最好的性能,它能够补偿由三种失真源同时引起的训练条件与测试条件之间的不匹配,因此适合作为一种通用的自适应方法。 相似文献
17.
18.
基于发音特征的汉语普通话语音声学建模 总被引:3,自引:0,他引:3
将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概率作为语音识别的输入特征建立声学模型。在汉语普通话非特定人大词表自然口语对话识别系统中进行了实验验证,并与基于频谱特征的声学模型进行了比较,在相同解码速度下,由此方法建立的声学模型汉字错误率相对下降6.8%;将发音特征和频谱特征进行了融合实验,融合以后的识别系统相对基于频谱特征系统的汉字错误率相对下降10.1%。上述结果表明,基于发音特征的声学模型更加有效的实现了对语音特性的表征,通过利用发音特征和频谱特征的互补性,能够进一步实现对语音识别性能的提高。 相似文献
19.
汉语塞音选择性特征自动萃取的小波变换方法 总被引:1,自引:0,他引:1
本文提出了汉语语音导引特征的概念,讨论了语音导引特征在自动语音识别中用于导引匹配搜索的运用方式和重要作用;提出并设计了汉语塞音选择性特征自动萃取的小波变换方法和数字信号处理算法。本文方法和算法从声学信号处理和检测的角度,将汉语清辅音声波输入信号自动分为塞音子集BDG:{b,d,g}、塞音子集ZZHJGPTcCHQK:{z,zh,j,g,p,t,c,ch,q,k}和擦音集FsSHhX:{f,s,sh,x,h};对输入的合清辅音的音节,计算检测并输出汉语自动语音识别系统可以利用的清辅音类属标记b.d.g、STOP/BD和f.s.sh.x.h以及它们的音段起始时标;从声学信息计算检测的角度为汉语自动语音识别系统提供一种新的“从粗到细”的辅助匹配结构。算法可用性模拟实验采用实际语音的数据库数据,以手工标注信息作为自动检测分类正确与否的对比标准。对1267个汉语全音节中,总数913个待分类清辅音的初步分类结果表明:正确分类率分别为b.d.g:96.1%,STOP/BD:95.1%和f.s.sh.x.h:89.0%,总体平均正确分类率为93.6%。 相似文献
20.
提出了一种采用感知语谱结构边界参数(PSSB)的语音端点检测算法,用于在低信噪比环境下的语音信号预处理。在对含噪语音进行基于听觉感知特性的语音增强之后,针对语音信号的连续分布特性与残留噪声的随机分布特性之间的不同点,对增强后语音的时-频语谱进行二维增强,从而进一步突出连续分布的纯净语音的语谱结构。通过对增强后语音语谱结构的二维边界检测,提出PSSB参数,并用于端点检测。实验结果表明,在白噪声-10 dB到10 dB的各种信噪比环境下,采用PSSB参数的端点检测算法,相对于其它端点检测算法,更有效地检测出语音的端点。在-10 dB的极低信噪比下,提出的方法仍然有75.2%的正确率。采用PSSB参数的端点检测算法,更适合于低信噪比白噪声环境下的语音端点检测。 相似文献