首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
非特定人四声识别   总被引:5,自引:0,他引:5  
关存太  陈永彬 《声学学报》1993,18(5):379-385
本文提出一个性能可靠的非特定人汉语普通话四声识别方法.该方法采用中心削波的无偏自相关法作基音周期检测,通过对基音周期进行数据选取、误差修正、平滑、拟合等处理过程,获取两维的判决矢量供四声判决.普通话单音节发音的四声识别率达98%以上。  相似文献   

2.
为了提高感知线性预测系数(PLP)在噪声环境下的识别性能,使用子带能量偏差减的方法,提出了一种基于子带能量规整的感知线性预测系数(SPNPLP)。PLP有效地集中了语音中的有用信息,在安静环境下自动语音识别系统使用PLP可以取得良好的识别率;但是在噪声环境中其识别性能急剧下降。通过使用能量偏差减的方法对PLP的子带能量进行规整,抑制背景噪声激励,提出了SPNPLP,增强自动语音识别系统在噪声环境下的鲁棒性。在一个语法大小为501的孤立词识别任务和一个大词表连续语音识别任务上做了测试,SPNPLP在这两个任务上,与PLP相比,汉字识别精度分别绝对提升了11.26%和9.2%。实验结果表明SPNPLP比PLP具有更好的噪声鲁棒性。  相似文献   

3.
蔡德和 《应用声学》1996,15(1):39-45
本文主要研究:以音素为识别基元,运用语音学知识,对非特定人的普通话复合元音进行识别。其特点是音素识别由神经网络(NN)完成,为了便于利用语音知识NN输入层的刺激采用语音的功率谱,用单元音训练的NN识另非特定人的普通话复合元音,识别率是54%。而运用语音学知识后,其识别率提高到90%。  相似文献   

4.
基于基音参数规整及统计分布模型距离的语音情感识别   总被引:17,自引:0,他引:17  
提出一种根据基音提取的频率分辨率确定自适应窗口的改进Parzen窗方法估计基音概率密度,兼顾了基音统计分布模型在低频段的高分辨率和高频段的平滑;提出利用不同性别的基音分布规律的性别区分算法,对于长句可以达到98%的识别率;通过分析基音均值、方差、统计分布模型在性别上的差异,对基音参数进行基于性别差异的规整;引入规整后的基音均值和基音方差,以及基音统计分布模型距离作为情感特征参数;最后利用K最近邻方法对汉语情感语料进行识别。利用常规方法提取的参数最后得到的识别率为73.8%,而使用经过性别差异规整的基音参数和基音统计分布距离的识别率提高到81%。  相似文献   

5.
传统的语音识别方法,信噪比较低时识别率也较低。为了使语音识别更具有环境适应性、抗噪性,从非齐次隐马尔可夫模型(nonhomogeneous Hidden Markov Model,HMM)出发,结合自适应函数链神经元网络,训练出适应环境变化的混合语音模型,并采用该混合模型进行语音识别。实验结果表明,该模型适用于含噪语音的识别,特别是在低信噪情况下,可以相对提高识别率。  相似文献   

6.
田斌  易克初 《声学学报》2003,28(1):28-32
针对语音识别中由于强噪声的影响而引起的Lombard和Loud效应进行研究,提出了基于训练数据的加性噪声和Lombard及Loud效应的联合补偿法。对于加性噪声是从谱减法的逆向角度对训练数据在频谱域采用谱加法;对于Lombard和Loud语音,则采用基于隐马尔可夫模型(HMM)状态标注的训练数据补偿,该方法同时考虑Lombard和Loud语音不同声学单元的不同状态在倒谱域的多种变化和多种变异情况下不同声学单元的音长及相对音长的变化。这种基于数据的多模式补偿使模型自动适应多种噪声和语音变异情况,在强噪声环境下具有很强的鲁棒性,并且不影响识别系统在正常环境或正常发音时的识别性能.同时,由于补偿是在训练过程中得到,不增加识别时的计算复杂度。  相似文献   

7.
提出了一种既符合人耳听觉特性又具有良好抗噪性的语音特征分析方法。首先将单边自相关函数序列进行时间方向的平滑处理,提高单边自相关函数的抗噪性,然后用平滑后的单边自相关函数序列代替原信号进行频率规整的LPC分析,最后经倒谱变换得到该特征参数。数字语音识别实验证明:利用该特征参数的语音识别系统的识别性能优于MEL倒谱系数、LPC倒谱系数等传统的语音特征参数。  相似文献   

8.
基于声门波码本受限的迭代维纳滤波语音增强   总被引:2,自引:0,他引:2  
对基于全极点模型的迭代维纳滤波语音增强方法进行深入研究,指出声门波波形失真和畸变是导致该种方法增强语音听感质量不好的主要原因。为进一步提高迭代维纳滤波增强语音的听感质量,本文从声门波的恢复和增强入手,提出了基于声门波码本受限的迭代维纳滤波语音增强方法:首先对干净训练语音逆滤波,获取其声门波信号;并基于参数模型分析该声门波,提取其特征参数;再根据声门波及其特征参数对声门波训练集进行κ-均值聚类,生成干净的声门波码本,该码本充分反映了干净语音的有效激励声源模式;用该码本对声门波加以规范和约束,使迭代维纳滤波过程中增强语音的激励声门波处干干净语音有效激励声源模式空间内。模拟实验表明,在同样输入条件下,采用声门波码本受限的迭代维纳滤波方法增强的语音比基于全极点模型的迭代维纳滤波方法增强的语音具有更小的失真,提高了增强语音的听感质量。  相似文献   

9.
提出了基于发音特征单个维度的置信度算法,并基于此对发音特征的各个维度展开分析.分析不仅验证了融合的必要性,同时也展示了发音特征各维度之间以及和隐马尔可夫模型之间的大量冗余.为了去除冗余,提出了用子集选择的方法进行优化.对比所有都用的情况,基于发音特征紧凑子集的语音识别置信度估计,在等错率上取得了12.7%的相对下降.把经过优化后的基于发音特征的语音识别置信度估计和基于隐马尔可夫模型的语音识别置信度进行融合,在保持集内识别率不损失的前提下,显著提高了语法外输入测试的拒识性能:在相同参数下,在开发集和测试集上分别取得了34%和35.3%的显著改善.  相似文献   

10.
混合双语语音识别的研究   总被引:1,自引:0,他引:1  
随着现代社会信息的全球化,双语以及多语混合的语言现象日趋普遍,随之而产生的双语或多语语音识别也成为语音识别研究领域的热门课题。在双语混合语音识别中,主要面临的问题有两个:一是在保证双语识别率的前提下控制系统的复杂度;二是有效处理插入语中原用语引起的非母语口音现象。为了解决双语混合现象以及减少统计建模所需的数据量,通过音素混合聚类方法建立起一个统一的双语识别系统。在聚类算法中,提出了一种新型基于混淆矩阵的两遍音素聚类算法,并将该方法与传统的基于声学似然度准则的聚类方法进行比较;针对双语语音中非母语语音识别性能较低的问题,提出一种新型的双语模型修正算法用于提高非母语语音的识别性能。实验结果表明,通过上述方法建立起来的中英双语语音识别系统在有效控制模型规模的同时,实现了同时对两种语言的识别,且在单语言语音和混合语言语音上的识别性能也能得到有效保证。  相似文献   

11.
To reduce degradation in speech recognition due to varied characteristics of different speakers,a method of perceptual frequency warping based on subglottal resonances for speaker normalization is proposed.The warping factor is extracted from the second subglottal resonance using acoustic coupling between subglottis and vocal tract.The second subglottal resonance is independent of the speech content,which reflects the speaker characteristics more than the third formant.The perceptual minimum variation distortionless response(PMVDR) coefficient is normalized,which is more robust and has better anti-noise capability than MFCC. The normalized coefficients are used in the speech-mode training and speech recognition.Experiments show that the word error rate,as compared with MFCC and the spectrum warping by the third formant,decreases by 4%and 3%respectively in clean speech recognition,and by 9%and 5%respectively in a noisy environment.The results indicate that the proposed method can improve the word recognition accuracy in a speaker-independent recognition system.  相似文献   

12.
分析了由于说话人受到重力加速度变化而产生的变异语音(应力影响下的变异语音)的特点,把变异语音分成主体部分和变异部分两方面进行研究,提出一种动态时间规正与差别子空间相结合的孤立词语音识别方法。该方法构造差别子空间去除变异部分的影响,利用语音的主体部分进行识别,采用动态时间规正技术对语音特征矢量进行长度对齐,并提出了相应的判别标准。实验结果表明,本方法对应力影响下的变异语音具有良好识别效果,对15个词的小词表,系统平均识别率达到98.3%,与正常语音的识别率基本相当。克服了话者在应力影响下由于心理紧张和生理情况的变化,语音发生严重变异,导致常规语音识别系统性能急剧下降的缺点。  相似文献   

13.
当前基于深度神经网络模型中,虽然其隐含层可设置多层,对复杂问题适应能力强,但每层之间的节点连接是相互独立的,这种结构特性导致了在语音序列中无法利用上下文相关信息来提高识别效果,而传统的循环神经网络虽然做出了改进,但是只能对上文信息进行利用。针对以上问题,该文采用可以同时利用语音序列中上下文相关信息的双向循环神经网络模型与深度神经网络模型相结合,并应用于语音识别。构建具有5层隐含层的模型,其中第3层为双向循环神经网络结构,其他层采用深度神经网络结构。实验结果表明:加入了双向循环神经网络结构的模型与其他模型相比,较好地提高了识别正确率;噪声对双向循环神经网络汉语识别有重要影响,尤其是训练集和测试集附加噪声类型不同时,单一的含噪声语音的训练模型无法适应不同噪声类型的语音识别;调整神经网络模型中隐含层神经元数量后,识别正确率并不是一直随着隐含层中神经元数量的增加而增加,神经元数量数目增加到一定程度后正确率出现了降低的趋势。  相似文献   

14.
Recent work at Bell Laboratories has demonstrated the utility of applying sophisticated pattern recognition techniques to obtain a set of speaker-independent word templates for an isolated word recognition system [Levinson et al.,IEEE Trans. Acoust. Speech Signal Process. ASSP-27 (2), 134--141 (1979); Rabiner et al., IEEE Trans. Acoust. Speech Signal Process.(in press)]. In these studies, it was shown that a careful experimenter could guide the clustering algorithms to choose a small set of templates that were representative of a large number of replications for each word in the vocabulary. Subsequent word recognition tests verified that the templates chosen were indeed representative of a fairly large population of talkers. Given the success of this approach, the next important step is to investigate fully automatic techniques for clustering multiple versions of a single word into a set of speaker-independent word templates. Two such techniques are described in this paper. The first method uses distance data (between replications of a word) to segment the population into stable clusters. The word template is obtained as either the cluster minimax, or as an averaged version of all the elements in the cluster. The second method is a variation of the one described by Rabiner [IEEE Trans. Acoust. Speech Signal Process. ASSP-26 (3), 34--42 (1978)] in which averaging techniques are directly combined with the nearest neighbor rule to simultaneously define both the word template (i.e., the cluster center) and the elements in the cluster. Experimental data show the first method to be superior to the second method when three or more clusters per word are used in the recognition task.  相似文献   

15.
一种改进的DNN-HMM的语音识别方法*   总被引:1,自引:1,他引:1       下载免费PDF全文
针对深度神经网络与隐马尔可夫模型(DNN-HMM)结合的声学模型在语音识别过程中建模能力有限等问题,提出了一种改进的DNN-HMM模型语音识别算法。首先根据深度置信网络(DBN)结合深度玻尔兹曼机(DBM),建立深度神经网络声学模型,然后提取梅尔频率倒谱系数(MFCC)和对数域的Mel滤波器组系数(Fbank)作为声学特征参数,通过TIMIT语音数据集进行实验。实验结果表明:结合了DBM的DNN-HMM模型相比DNN-HMM模型更具优势,其中,使用MFCC声学特征在词错误率与句错误率方面分别下降了1.26%和0.20%。此外,使用默认滤波器组的Fbank特征在词错误率与句错误率方面分别下降了0.48%和0.82%,并且适量增加滤波器组可以降低错误率。总之,研究取得句错误率与词错误率分别降低到21.06%和3.12%的好成绩。  相似文献   

16.
基于声调建模的带噪汉语数字串语音识别   总被引:2,自引:1,他引:1  
尝试利用声调信息来改善噪声下汉语数字串语音识别性能。为解决声调特征不连续问题,提出采用基于多空间概率分布的隐马尔可夫模型进行声调建模。简要分析噪声对声调特征提取的影响,论证了在带噪数字串语音识别中利用声调信息的可行性。实验结果显示,与不采用声调信息的方法相比,在5 dB到20 dB的测试数据上,所提方法可使错误率平均相对下降17.2%。这说明声调信息及所提建模方法对于改善带噪汉语数字串语音识别性能是有效的。  相似文献   

17.
基于决策树的汉语三音子模型   总被引:6,自引:2,他引:6  
高升  徐波  黄泰翼 《声学学报》2000,25(6):504-509
基于决策树理论的上下文相关声学模型在英语语音识别中已经得到了比较深入的研究和应用,但在汉语语音识别中的应用则研究的比较少。本文基于决策树理论建立了汉语语境相关模型-三音于模型,讨论了决策构建模所要解决的几个重要问题:(1)基本建模单元集的选择,(2)音子类别集的设计,(3)评估函数的选择,(4)停止准则的选择,(5)决策树的建立和三音子模型的生成,本文着重分析了两种不同建模单元的性能:对音子类别集的设计提出了一些一般性的准则,并对我们设计的类别集进行了统计分析;分析了三音子模型在语音库的覆盖程度。实验结果表明,基于决策树的三音子声学模型建立的识别系统与双音子声学模型系统比较,误识率下降了24.7%。  相似文献   

18.
本文提出了一种孤立词语音识别系统中基于后验概率差值的拒识算法。研究了作为拒识特征时,输入词的后验概率和后验概率差值之间的区别,并将多层感知人工神经网络用于拒识特征的学习。相比现存的几种拒识算法,本算法几乎不需要额外的计算和存储量。当识别率为98.2%时,拒识率达到了95.4%。  相似文献   

19.
陈斌  陈琦  张连海  屈丹  李弼程 《声学学报》2016,41(1):125-134
在区分性训练的框架下,提出了一种基于混淆信息加权的互补系统构造方法。首先通过统计音素对的混淆信息,利用混淆信息给音素对加以不同的惩罚权重,分别以基线系统中的3个最优识别结果作为参考,计算混淆信息加权后的音素准确率,同时以正确的标注为参考计算标准的音素准确率。然后通过同时最大化混淆信息加权后的音素准确率和最小化标准音素准确率,构建模型层互补系统,并进一步通过结合RDLT (region-dependent linear transform)特征变换过程构造特征层的互补系统。实验结果表明,与互补最小音素错误准则相比,融合模型层互补系统后识别率提高了0.76%,同时融合特征层和模型层的互补系统识别率提高了1.35%。本方法可以增大互补系统间的差异性,提高系统融合后的识别性能。  相似文献   

20.
Speech understanding was tested for seven listeners using 12-electrode Med-El cochlear implants (CIs) and six normal-hearing listeners using a CI simulation. Eighteen different types of processing were evaluated, which varied the frequency-to-tonotopic place mapping and the upper boundary of the frequency and stimulation range. Spectrally unwarped and warped conditions were included. Unlike previous studies on this topic, the lower boundary of the frequency and stimulation range was fixed while the upper boundary was varied. For the unwarped conditions, only eight to ten channels were needed in both quiet and noise to achieve no significant degradation in speech understanding compared to the normal 12-electrode speech processing. The unwarped conditions were often the best conditions for understanding speech; however, small changes in frequency-to-place mapping (<0.77 octaves for the most basal electrode) yielded no significant degradation in performance from the nearest unwarped condition. A second experiment measured the effect of feedback training for both the unwarped and warped conditions. Improvements were found for the unwarped and frequency-expanded conditions, but not for the compressed condition. These results have implications for new CI processing strategies, such as the inclusion of spectral localization cues.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号