共查询到20条相似文献,搜索用时 15 毫秒
1.
高阶MFCC的话者识别性能及其噪声鲁棒性 总被引:6,自引:0,他引:6
在一个以MFCC为特征参数的语音识别系统中,人们通常采用低阶的MFCC系数作为语音帧的特征矢量.本文对MFCC的高、低阶系数在与文本有关的话者识别中体现出的识别性能和噪声鲁棒性分别进行了实验分析,发现高阶的MFCC系数在干净环境下对于话者识别而言具有与低阶MFCC系数相当的识别性能,并且当环境信噪比恶劣时,高阶的MFCC系数表现出比低阶MFCC系数更强的噪声鲁棒性.基于这个结果,本文将高阶系数的取值范围进一步向低阶拓展,只滤除最易受噪声影响的几个系数,并与Delta参数相结合形成新的特征矢量.实验证明,这种经过适当选取的MFCC系数同时具有良好的话者识别性能和噪声鲁棒性. 相似文献
2.
汉语数码语音识别自适应算法 总被引:4,自引:0,他引:4
说话人自适应是提高非特定人语音识别性能的有效方法之一。本文将MAP算法应用于汉语数码语音识别中,并讨论了几种加快自适应速度的方法以及自适应对非自适应人的影响。实验表明,MAP算法可以有效地降低汉语数码识别对被适应人的误识率,而且对非自适应人性能影响很小。 相似文献
3.
4.
话者识别系统的时间鲁棒性是影响话者识别系统实用化的关键问题之一。为了提高系统的时间鲁棒性,本文提出了基于子带矢量量化及人工神经网络的话者模型。将语音文本的有效频段划分为几个子带,分别求取子带上的知闰量化码本,利用BP 工神经网络对训练数据在各个子带上的量化误差进行拟合,即可训练出话者模型(SBVQ码本及BPNN的权值矩阵 、确认阈值)该话者模型反映了不同频段对话者识别系统性能的不同影响,并可将时间 相似文献
5.
研究了一种基于RASTA-PLP特征分析的与文本无关的话者识别方法。话者模型训练采用的是基于矢量量化的方法,实验验证了该方法的有效性。 相似文献
6.
介绍了用离散隐马尔可夫模型(DHMM)构造孤立词语音识别系统中的特征向量矢量量化的码书构造过程。以往的矢量量化通常采用基本算法LBG,在此基础上,引入了一种时间复杂性和空间复杂性有所降低的改进算法。该算法的核心是自适应地生成初始码书以及对初始码书的二次构造过程。从降低时间复杂度和节省存储空间,提高识别率的角度,对该算法进行了讨论。 相似文献
7.
语音识别的自适应束剪枝方法 总被引:3,自引:1,他引:2
在语音识别的应用中,如何提高识别的效率性是一个重要的方向。尤其在大词汇表的识别中,庞大的搜索空间带来相应的计算代价,而传统剪枝方法在减少计算量的同时牺牲了识别率。为此引入自适应控制理论,自动调整束宽限定搜索空间在预定的规模。在此基础上,又提出了利用基线系统的平均激活模型音子模型实例作为自适应系统动态参考值的方法,实现启发式的束宽调节。应用此方法的解码器在不损失识别率情况下,计算时间和搜索空间比采用传统剪枝算法下降了55%和71%,显著地提高了解码器的效率。 相似文献
8.
9.
一种新的自适应语音增强系统 总被引:4,自引:0,他引:4
针对自适应噪声对消(ANC)语音增强系统的性能高度依赖于参考信号的质量,任何原始语音信号泄漏到参考信号中,都会导致原始语音信号失真和噪声抵消性能恶化这一问题,本文提出一种对泄漏不敏感的附加随机噪声(ARN)自适应噪声对消语音增强系统。它通过在参考信号中加入一个低功率的宽带随机训练信号,然后用该训练信号作参考信号对噪声传输函数(NTF)进行自适应建模,并在使用自适应预测滤波器(APF)消除NTF自适应建模的语音信号干扰的同时,用补偿滤波器(CPF)来修正由APF引起的参考信号失真。计算机仿真表明,这种ARNANC语音增强系统在泄漏情况下能将原始语音信号从带噪语音信号中有效分离出来。 相似文献
10.
重点研究在噪声环境下,话者识别中语音信号的特征提取。将能简化信号,消除较小分量而保留信号的基本特征的数学形态滤波器良好的滤波性应用在一维语音信号的处理中。并在噪声环境下,应用线性预测的MFCC特征提取方法提高鲁棒性。提取几种重要的语音特征参数,包括线性预测倒谱系数、MEL倒谱系数、语音动态参数、激励源特征等,对这些参数进行分析和比较,以达到话者识别的目的。 相似文献
11.
13.
14.
应用神经网络和Levinson-Durbin算法,本文提出一种改进的语音信号非线性自适应预测编码方案。用该方案实现了16Kb/s语音信号自适应预测编码器。实验结果表明,与原方案相比,本文提出的方案解码恢复后的语音质量有明显地改善。 相似文献
15.
16.
基于非自回归Transformer的端到端自动语音识别模型与自回归Transformer等传统模型相比拥有更快的解码速度,然而非自回归的解码方式与独立性假设导致了语音识别结果准确性的下降.为了解决此问题,提出了一种语音表征融合的自适应独立性假设非自回归Transformer端到端中文语音识别模型.在训练期间,通过对表征向量进行注意力融合,改善decoder输入帧语义信息部分缺失的问题;在解码期间,采用基于自适应独立性假设的解码策略,解决非自回归模型独立性假设带来的输出字符条件独立问题.最后,利用迭代式波束搜索进行多目标的排序搜索解码,解决波束搜索算法在提出模型上的不适用问题.在中文数据集AISHELL-1的实验结果显示,模型的实时性因子达到0.005,字错误率为8.8%,较非自回归Transformer基线模型降低了20%,在保证较高的识别速度的同时大幅降低了错误率,展现出先进的模型性能. 相似文献
17.
18.
19.