共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
汉语连续语音数据库的语料设计 总被引:10,自引:0,他引:10
质量优良的语音识别系统或语音合成系统需要高质量的、在语音学和语言学知识指导下设计的科学合理简洁有效的连续语音数据库的支持.在目前阶段,汉语语音数据库应限制在朗读言语(readspeech)的音段方面。为了描写语流中的音变现象,考虑如下语音单元:(1)不计声调的音节(401个)。(2)音节间的双音子415个。(3)音节间的三音子3035个,这是根据37个基本音子,利用音节间共振峰过渡的研究结果,按规则规纳的结果.(4)所有音节间过渡段的韵母一声母结构,采用和同三音子相同的归并方法,共781个.为了增加不同的韵律结构,并考虑语音识别系统的后处理,语料还包括汉语的17类基本句型.选用1993、1994两年的“人民日报”、“百家报刊精选”及若干电视剧本、词典词库作为语料库的原始语料,从中选出2185个句子和388个短语作为朗读语料,它们覆盖了99.8%个无调音节,100%的双音子,99.6%的三音子,以及17类句型。 相似文献
3.
4.
提出了利用偶数帧段输入隐马尔可夫模型(HMM)提高在噪声环境下汉语连续语音识别系统鲁棒性的方法,并提出了对于传统谱相减降噪技术的修改方法。实验结果表明,本文的方法能有效地提高噪声背景下汉语连续语音识别系统的性能。 相似文献
5.
基于连续高斯混合密度HMM的汉语全音节语音识别研究 总被引:5,自引:0,他引:5
本文在大量语音分析实验的基础上,对HMM用于汉语全音节语音识别进行了较为深入的探讨,建立了一个连续高斯混合密度HMM的汉语全音节语音识别系统.该系统在训练算法上撇开了传统的Baum-Welch算法,代之以计算复杂度小、存储量小、迭代次数少且具有自动分割效应的分段K平均算法。对于HMM的模型单元的选择,单元的结构以及模型参数的选取,充分考虑了汉语语音的特点;并在语音特征上做了深入的实验分析工作,采用了符合人耳听觉特性的Mel-Scaled参数,用FFT倒谱代替了LPC倒谱,同时利用了语音的动态谱特征和能量特征。另外,本文还针对汉语声母的特点,独特地提出了变帧移分析策略。整个识别系统的首选正识率为91.1%. 相似文献
6.
汉语连续语音识别的语速自适应算法 总被引:4,自引:3,他引:1
在连续语音中,不同的说话者在不同语境下说话的速度差异是很大的。偏离正常语速往往会造成识别错误,使识别性能下降。考虑到语速对于语音单元段长的影响是同步增长或同步下降的,相邻语音单元的段长之间存在很强的相关性,本文从利用段长的相关信息出发,在基于段长分布的隐含马尔可夫模型(DDBHMM:Duration Distribution Based HMM)的框架上,提出了一种语速自适应算法。对数字串和大词汇量连续语音识别的试验表明这个算法是有效的。 相似文献
7.
认人的限定主题的连续汉语语音识别系统的研究 总被引:3,自引:0,他引:3
本文描述一个基于矢量量化(VQ)、隐马尔可夫模型和有限态文法的认人的限定主题的连续汉语语音识别系统。引入跨零幅度差函数作为判定语音有无的特征参量之一,HMM训练用的各单个词语的语音数据由连续话句的语音数据经自动切分而得,识别过程中,每帧都考虑多个可能过渡到其它模型的文法节点。这些技术措施显著地提高了识别系统的准确率。这类系统能用于特定人操作的、特定主题的信息查询任务。待进一步解决非特定人的连续语音识别问题后,可用于特定主题的公用信息查询系统。 相似文献
8.
汉语连续语音识别中语音处理和语言处理统合方法的研究 总被引:4,自引:1,他引:4
提出了一种语音处理和语言处理按帧同步统合的汉语连续语音识别方法。该方法把基于 CFG语言模型和 Top Down型句法分析器的语言处理过程结合进基于有限状态自动机控制的 One Pass Viterbi语音识别算法中,实现了帧同步的语音语言处理的统合。为完成帧同步句法分析的单词预测和语音识别过程的结合,本文提出了一种类似于Earley法的 TopDown型句法分析方法以及 One Pass Viterbi算法中的有限状态自动机动态展开建立法. 60个音素单位和 8个声调单位的 HMM作为识别用基元模型被用于识别实验,识别结果表明,对于一个识别困难度(Perplexity)为27.3的任务(Task)的识别系统,利用本文提出的方法,10名话者发音的 1070句子的平均识别率达到 94.4%,比利用传统的基于单词确认(Word Spotting)以及从单词串(列)(lattice)进行句法分析的阶层性语音·语言统合方式的识别率提高约8%. 相似文献
9.
本文在分析了汉语单音节发音的音节结构的基础上,定义了基于声韵母类的语音识别单元,从声学角度确定了用于汉语全音节识别系统的声学单元,并研究了这些声学单元的检测一致性及基于这些单元的识别系统的鲁棒性。文中还对大量的发音人的声母类发音的长度作了统计,给出了基于本文给出的分割算法和本文定义的声母单元下的声母长度预分类方法。通过在非特定人全音节汉语语音识别系统上的应用表明,本文定义的语音识别单元具有很高的检测一致性,建立在其上的识别,系统也具有很高的鲁棒性;文中给出的预选方法在最好的情况下,可以减少一半以上的运算量,而预选精度几乎达到100%。 相似文献
10.
提出了一种基于声韵母能量分布和共振峰结构特性的汉语连续语音声韵母边界检测方法。该方法首先将语音经过Seneff听觉感知模型得到听觉谱,然后基于听觉谱,选取全频带能量、低频带能量、谱重心、高低频能量比、中高频能量等特征参数对各声韵母类别能量分布和共振峰结构特性进行描述,最后根据特征参数变化剧烈的点确定出声韵母边界,并采用包络的一阶差分和基于样点的Kullback-Leibler距离对得到的边界进行修正。实验结果表明,对8 kHz采样的语音边界检测准确率可达到93.7%;信噪比10dB的语音边界检测准确率可达到85.3%以上;经过参数编码后语音边界检测准确率可达86 7%以上。 相似文献
11.
12.
13.
汉语连续语音识别中关键词可信度的贝叶斯估计 总被引:2,自引:1,他引:2
在一个基于经典隐马尔可夫模型(Hidden Markov Model,HMM)的汉语全音节、非特定人、连续语音识别系统中,利用声学层分数和基于拼音的统计语言模型分数,对关键词的可信度进行贝叶斯估计。本文提出了最大后验(Maximum APosteriori,MAP)可信测度,给出了计算MAP可信度分数的前向后向算法。并且在关键词捕捉应用中评价了MAP可信测度的性能,实验表明MAP可信度分数对关键词候选具有很强的鉴别能力。此外,MAP可信测度可以广泛地应用于各种语音识别应用中。 相似文献
14.
15.
16.
17.
18.
19.
针对传统语音情感特征参数在进行情感分类时性能不佳的问题,该文提出了一种基于变分模态分解的语音情感识别方法。情感语音信号首先由变分模态分解提取固有模态函数,然后对所选主导固有模态函数进行重新聚合,再提取梅尔倒谱系数和各固有模态函数的希尔伯特边际谱。为了验证该文提出的特征性能,选用两种语音数据库(EMODB、RAVDESS)进行实验,按该文方法提取特征后使用极限学习机进行语音情感分类识别。实验结果表明:相比基于经验模态分解和集合经验模态分解的语音情感特征,该文提出的特征有更好的识别性能,验证了该方法的实用性。 相似文献