排序方式: 共有11条查询结果,搜索用时 15 毫秒
1.
2.
为了对语音谐波/噪声模型中的语音截止频率轮廓进行更好的描述,本文提出了一种基于谐波和噪声能量改进的语音截止频率轮廓估计算法。改进算法对累积谐波和噪声能量函数进行对应谐波处的功率谱加权,并且在语音截止频率轨迹的平滑部分采用形态滤波的手段。实验表明,与原算法相比,通过改进算法得到的截止频率轮廓在语谱图上标注得更为准确,在主观评分测试中改进算法也获得了优于原算法的测试评分。改进算法比原算法能够更加准确的对语音截止频率轮廓进行估计,从而使得语音谐波/噪声模型在语音编码、语音合成及识别方面具有更为有效的应用。 相似文献
3.
4.
基于空间特征抽取与神经网络的人耳空间听觉模型 总被引:4,自引:0,他引:4
空间听觉中复数值的与头相关联的传递函数(HRTF)可用实数值的与头相关联的冲激响应(HRIR表示。对测量空间上归一化的HRIR进行Karhunen-Loeve展开可以提取其空间特征.用Von—Mises函数为基函数的神经网络逼近离散的HRIR空间特征函数得到连续听觉空间上的双耳时域模型.模型与实际测量得到的HRIR有较好的一致性。 相似文献
5.
6.
7.
基于最大似然多项式回归的鲁棒语音识别 总被引:2,自引:0,他引:2
本文针对最大似然线性回归算法线性假设的缺点,将多项式回归方法用于模型自适应,构建了基于最大似然多项式回归的非线性模型自适应算法。该算法在对数谱域用多项式回归方法,逼近每个Mel子带上识别环境模型均值与训练环境模型均值之间的非线性关系。多项式系数通过EM算法和最大似然准则从识别环境下的少量自适应数据中估计。实验结果表明,二阶多项式就可以较好地逼近模型均值的非线性环境变换关系。在噪声补偿和说话人自适应实验中,最大似然多项式回归算法的误识率都明显低于最大似然线性回归算法。本文算法较好地克服了线性模型自适应算法线性假设的缺陷,可同时减小噪声,和说话人的改变或其它因素对语音识别系统的影响,尤其适合说话人和噪声的联合自适应。 相似文献
8.
9.
基于多窗谱的心理声学语音增强 总被引:7,自引:2,他引:5
与传统的周期谱图相比,多窗谱具有更小的估计方差。从含噪语音的多窗谱对噪声及噪声与含噪语音之比(NNSR)进行估计,用基于NNSR的幅度谱减实现用于计算人耳掩蔽阈值的预增强语音,用集成了人耳掩蔽阈值的心理声学加权规则实现最终的增强语音。考虑到多窗谱的特点对掩蔽偏移量进行了修正,修正后的重建语音,其客观测量指标修正巴克谱测度比修正前有一定的改进。再对心理声学加权规则作最大值小于1的限制,则输入信噪比越大(0 dB以上),分段信噪比和总体信噪比提高得越多。非正式试听表明重建语音失真较小,背景噪声大大降低,且没有音乐噪声。 相似文献
10.
汉语连续语音识别中语音处理和语言处理统合方法的研究 总被引:4,自引:1,他引:4
提出了一种语音处理和语言处理按帧同步统合的汉语连续语音识别方法。该方法把基于 CFG语言模型和 Top Down型句法分析器的语言处理过程结合进基于有限状态自动机控制的 One Pass Viterbi语音识别算法中,实现了帧同步的语音语言处理的统合。为完成帧同步句法分析的单词预测和语音识别过程的结合,本文提出了一种类似于Earley法的 TopDown型句法分析方法以及 One Pass Viterbi算法中的有限状态自动机动态展开建立法. 60个音素单位和 8个声调单位的 HMM作为识别用基元模型被用于识别实验,识别结果表明,对于一个识别困难度(Perplexity)为27.3的任务(Task)的识别系统,利用本文提出的方法,10名话者发音的 1070句子的平均识别率达到 94.4%,比利用传统的基于单词确认(Word Spotting)以及从单词串(列)(lattice)进行句法分析的阶层性语音·语言统合方式的识别率提高约8%. 相似文献