排序方式: 共有13条查询结果,搜索用时 609 毫秒
1.
为了解决汉英语码转换文本数据稀缺的问题,本文提出了基于编码器-解码器模型合成语码转换文本的方法,从有限的语码转换文本与大量单语种平行语料中学习语码转换语言学规则与语种内部的语言学规则,来合成语码转换文本。但是该模型合成的语码转换文本自然度低,因此本文又提出基于带复制机制的编码器-解码器模型合成语码转换文本的方法,在编码器-解码器的基础上,增加了一个门控,用来决定从编码器的预测结果还是从编码器的输入源文本中产生下一个词。最终,该方法使语言模型在SEAME测试集上的困惑度降低了绝对13.96。由此可得出结论,本文提出的方法可大规模地合成自然度高的语码转换文本,缓解语码转换文本数据的稀缺性。 相似文献
2.
3.
4.
段长信息在连续语音识别中的应用研究 总被引:4,自引:1,他引:3
基于段长分布的隐含马尔可夫模型(DDBHMM)有效地解决了经典HMM的缺陷.本文以DDBHMM模型为基础,详细研究了如何在连续语音识别中有效地利用段长信息。文中首先介绍了段长分布的统计方法,然后按照不同的说话速度对数据文件进行了分类,据此进行的识别实验表明,段长信息对于速度慢的文件效果最好,速度中等的次之,速度快的效果较小.作者认为,段长信息最大的作用在于能够得到更加精确的音节和状态分割点,并因而提高识别效果.同时,通过段长信息的有效利用,还能够提高识别系统对于说话速度的稳健性、作者又进行了细化研究,提出了利用分类段长和规整化的段长的研究方法,发现两者均可使识别效果有进一步的提高.为了研究如何利用段长之间的相关性,文中还提出了段长的Bigram的方法,并对之作了分析.最后,本文研究了采用后处理方法利用段长信息的效果,进一步说明了只有基于DDBHMM,在识别过程中同步利用段长信息,才能得到卓有成效的性能提高。 相似文献
5.
6.
提出了基于发音特征单个维度的置信度算法,并基于此对发音特征的各个维度展开分析.分析不仅验证了融合的必要性,同时也展示了发音特征各维度之间以及和隐马尔可夫模型之间的大量冗余.为了去除冗余,提出了用子集选择的方法进行优化.对比所有都用的情况,基于发音特征紧凑子集的语音识别置信度估计,在等错率上取得了12.7%的相对下降.把经过优化后的基于发音特征的语音识别置信度估计和基于隐马尔可夫模型的语音识别置信度进行融合,在保持集内识别率不损失的前提下,显著提高了语法外输入测试的拒识性能:在相同参数下,在开发集和测试集上分别取得了34%和35.3%的显著改善. 相似文献
7.
对齿龈塞音在腭裂语音中的声门塞音代偿现象进行了声学分析,计算频谱分布的多阶统计量—谱矩,并将代偿塞音和正常塞音进行对比。结果显示声门塞音爆破段的第一阶谱矩即频谱质心的频率位置比正常塞音低,因为声门塞音的阻塞部位在声门,导致声道腔体偏长从而共振频率偏低。还观察到声门塞音的第二阶谱矩即标准偏差偏高,说明其谱能量分布比正常塞音更加分散。声门塞音的第三阶谱矩即偏度大多为正值,反映了声门塞音功率谱的非对称性且大头朝向低频区而长尾朝向高频区。采用逻辑回归模型进行样本分类,通过交叉验证选出最优的四阶谱矩作为模型自变量,分类正确率为89.7%。结合塞音爆破时刻自动检测,实现了音节/di/的声门塞音客观判定。 相似文献
8.
提出一种面向自定义语音唤醒的单通道语音增强方法。该方法预先将关键词音素信息存入文本编码矩阵,并在常规语音增强模型基础上添加一个基于注意力机制的音素偏置模块。该模块利用语音增强模型中间特征从文本编码矩阵中获取当前帧的音素信息,并将其融入语音增强模型的后续计算中,从而提升语音增强模型对关键词相关音素的增强效果。在不同噪声环境下的实验结果表明,该方法可以更有效地抑制关键词部分噪声。同时所提出方法对比常规语音增强方法与其他文本相关语音增强方法,在自定义语音唤醒性能上可以分别获得14.3%和7.6%的相对提升。 相似文献
9.
本文研究了大词汇量非特定人汉语连续语音识别和理解系统中的容错技术.首先,声学识别器产生N个最优(N-best)音节候选及其相应的声学层的概念,再由N个最优音节候选构成一个音节网格(syllable lattice).一个容错语言分析器被用来搜索该音节网格并发现最优的汉字串.由于考虑了额外的可能候选音节,该最优汉字串的某些字的音节可能不在原来的音节网格中.这样,声学层的一些错误被纠正,语言分析器的稳健性(robustness)得以提高.实验表明容错分析器能将字的理解正确率从91.83%提高到94.15%.与传统的无容错技术的基于三元文法模型的分析器相比,错误率下降了28.4%. 相似文献
10.