期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张晴晴潘接林颜永红《声学学报》2010,35(2):254-260

将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概率作为语音识别的输入特征建立声学模型。在汉语普通话非特定人大词表自然口语对话识别系统中进行了实验验证,并与基于频谱特征的声学模型进行了比较,在相同解码速度下,由此方法建立的声学模型汉字错误率相对下降6.8%;将发音特征和频谱特征进行了融合实验,融合以后的识别系统相对基于频谱特征系统的汉字错误率相对下降10.1%。上述结果表明,基于发音特征的声学模型更加有效的实现了对语音特性的表征,通过利用发音特征和频谱特征的互补性,能够进一步实现对语音识别性能的提高。相似文献

2.

用于语音识别置信度的发音特征各维度分析和子集优化

孙艳庆张晴晴周瑜赵庆卫颜永红《声学学报》2011,36(3):339-348

提出了基于发音特征单个维度的置信度算法,并基于此对发音特征的各个维度展开分析.分析不仅验证了融合的必要性,同时也展示了发音特征各维度之间以及和隐马尔可夫模型之间的大量冗余.为了去除冗余,提出了用子集选择的方法进行优化.对比所有都用的情况,基于发音特征紧凑子集的语音识别置信度估计,在等错率上取得了12.7%的相对下降.把经过优化后的基于发音特征的语音识别置信度估计和基于隐马尔可夫模型的语音识别置信度进行融合,在保持集内识别率不损失的前提下,显著提高了语法外输入测试的拒识性能:在相同参数下,在开发集和测试集上分别取得了34%和35.3%的显著改善. 相似文献

3.

基于音节Lattice的汉语语音检索技术及其索引去冗余方法 总被引：4，自引：0，他引：4

郑铁然韩纪庆《声学学报》2008,33(6):526-533

针对网络中越来越多的语音数据,人们迫切地需要基于语义内容的快速、准确的语音检索技术。本文在基于音节Lattice的汉语语音检索研究中,针对传统的向量空间模型检索方法的不足,提出了一种基于词检出实现的语音检索方法。并针对Lattice索引存在的信息冗余问题,提出了一种基于音节后验概率直方图的索引去冗余方法。实验结果表明,本文的检索方法在性能上明显优于向量空间模型方法;而提出的索引去冗余方法达到了大规模缩减索引尺寸加快检索速度的目的。相似文献

4.

决策树结构对说话人自适应影响的研究 总被引：1，自引：1，他引：0

徐向华朱杰郭强《声学学报》2006,31(1):42-47

提出一种利用自适应语料和训练语料对模型状态结构调整的算法。该算法在易混淆的状态间参数共享,提高了模型对样本的后验概率和对自适应语料的利用率,并间接地调整了系统决策树的结构。识别实验结果表明,在不同数量的自适应语句下,调整后的系统识别率比基线系统获得了一致的提高,结合使用MLLR说话人自适应,调整的系统识别率平均提高了15.60%,有效地减少了测试语料与训练语料决策树结构不匹配造成的系统识别率降低。相似文献

5.

汉语语调降阶的实验研究 总被引：3，自引：2，他引：1

黄贤军杨玉芳吕士楠《声学学报》2007,32(1):56-61

采用设计特定声调组合的实验室语句的方法,研究了汉语普通话语调降阶的规律。结果发现,在普通话语调中,同样存在自动降阶和非自动降阶两种音高现象。在有低音介入的非自动降阶中,低音对后音节音域的影响表现在使音域上限降低,音域的下限保持不变;因此汉语中的降阶是语调高音特征的表现;低音特征声调会使低音后的高音发生正向降低和低音前高音的逆向提高,并且这两种作用是可以相互包容的。在自动降阶中,高音线的下降趋势是线性的,它受重音位置及重读程度的影响,在发音人中有较大差异。与已有的其他语言降阶研究的结果相比,汉语的降阶率不是固定的,且降阶的作用范围并不只局限于同低音相邻的音节。相似文献

6.

汉语普通话水平测试中儿化音的自动检测与评价

张珑李海峰马琳王建华《声学学报》2014,39(5):639-646

提出一种汉语普通话水平测试中儿化音的自动检测与评价方法。在现有计算机辅助发音评测系统的框架下,深入分析儿化音的发音规律和声学特性,将儿化音的检测与评价转化成典型的分类问题进行处理。经过挑选多个有代表性的声学特征,并尝试多种不同的分类算法,结果表明,集成分类回归树(Boosting CART)强化分类模型,能充分利用儿化音的各种声学特征,分类正确率达到92.41%。通过对声学特征组的进一步分析,发现共振峰、发音置信度、时长是表达儿化音的最重要线索,利用这些线索能有效地实现对儿化音的自动检测与评价。相似文献

7.

基于3维空间Viterbi算法的音素模型和声调模型识别概率统合方法的研究 总被引：2，自引：1，他引：1

赵力邹采荣吴镇扬《声学学报》2001,26(3):259-263

提出了一种在汉语连续语音识别中基于３维空间Ｖｉｔｅｒｂｉ算法的音素模型和声调模型识别概率的统合方法。该方法采用６０个音素单位的ＨＭＭ和８个声调单位的ＨＭＭ作为识别用基元模型。音素和声调基元模型识别结果的统合,采用音素的ＨＭＭ状态、声调的ＨＭＭ状态和时间的３维空间帧同步Ｖｉｔｅｒｂｉ算法来实现。本文还探讨了在该方法的基础上,给予不同路径限制时的匹配统合效果,并且通过和传统的匹配统合方式的比较,证明了提出的方法的有效性。相似文献

8.

基于共振峰模式的汉语普通话中韵母发音水平客观测试方法的研究 总被引：5，自引：0，他引：5

董滨赵庆卫颜永红《声学学报》2007,32(2):122-128

提出了一种以元音的共振峰模式为特征基于支持向量机算法的分类评估方法,用以对汉语普通话中的韵母发音水平进行客观测试。此算法为每个韵母分别训练全分类模型、子分类模型和评估模型,在两级分类的基础上对发音水平进行测试打分。实验结果表明,全分类模型可以达到90%以上的分类正确率,客观测试与专家主观评估的相似度达到82%,在性能上超过了传统的以倒谱系数为特征的隐含马尔科夫模型方法。相似文献

9.

面向语音增强的序贯隐马尔可夫模型时频语音存在概率估计

许春冬夏日升应冬文李军锋《声学学报》2014,39(5):647-654

语音存在概率的估计是语音增强的核心技术之一,针对传统的存在概率估计方法是启发式的,没有把存在概率的估计统一到一个理论框架之中,不能保证估计最优,提出了一种基于序贯隐马尔可夫模型(SHMM)的存在概率估计方法,在每一子带上构建一个SHMM模型描述对数功率谱包络的时间序列,把谱包络序列看作一个在语音和噪声状态之间转移的动态一阶马尔可夫链,采用单高斯函数构建每一状态的概率模型,语音状态的后验概率即为语音信号的存在概率。为了满足算法实时性要求,SHMM参数估计简化为一阶回归过程,根据极大似然准则逐帧更新模型参数。实验表明:SHMM所描述的时序相关性对存在概率的估计起到关键作用,它优于一般的启发式估计方法;SHMM算法的语音增强分段信噪比(SegSNR)和对数谱失真(LSD)性能优于经典的改进型最小统计量控制递归平均(IMCRA)算法。相似文献

10.

汉语连续语音识别的语速自适应算法 总被引：4，自引：3，他引：1

王作英李健《声学学报》2003,28(3):229-234

在连续语音中,不同的说话者在不同语境下说话的速度差异是很大的。偏离正常语速往往会造成识别错误,使识别性能下降。考虑到语速对于语音单元段长的影响是同步增长或同步下降的,相邻语音单元的段长之间存在很强的相关性,本文从利用段长的相关信息出发,在基于段长分布的隐含马尔可夫模型(DDBHMM:Duration Distribution Based HMM)的框架上,提出了一种语速自适应算法。对数字串和大词汇量连续语音识别的试验表明这个算法是有效的。相似文献