期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

黄哲莹刘作桢徐及赵庆卫《信号处理》2022,38(10):2074-2081

为了解决汉英语码转换文本数据稀缺的问题,本文提出了基于编码器-解码器模型合成语码转换文本的方法,从有限的语码转换文本与大量单语种平行语料中学习语码转换语言学规则与语种内部的语言学规则,来合成语码转换文本。但是该模型合成的语码转换文本自然度低,因此本文又提出基于带复制机制的编码器-解码器模型合成语码转换文本的方法,在编码器-解码器的基础上,增加了一个门控,用来决定从编码器的预测结果还是从编码器的输入源文本中产生下一个词。最终,该方法使语言模型在SEAME测试集上的困惑度降低了绝对13.96。由此可得出结论,本文提出的方法可大规模地合成自然度高的语码转换文本,缓解语码转换文本数据的稀缺性。相似文献

2.

广播新闻语音的关键词检测系统

张鹏远邵健赵庆卫颜永红《通信学报》2007,28(12):131-135

提出了一种两阶段的关键词检测策略，关键词表可即时配置、即时使用。与以往不同的是，解码是在整个声学空间上进行的，而不仅仅是关键词所构成的声学空间。首先，利用维特比解码得到最优候选的音素序列。然后，通过关键词列表，可以产生候选的关键词。最后，采用了基于声学模型的置信度与基于网格的置信度相结合的方法来降低虚警。实验证明，新的框架下关键词检测的性能得到了显著的提高。相似文献

3.

汉语连续语音识别中上下文相关的识别单元(三音子)的研究 总被引：1，自引：0，他引：1

赵庆卫王作英陆大《电子学报》1999,27(6):79-82,117

本文详细研究了汉语语音识别中如何有效地建立上下文相关的识别单元,以解决连续语音之间的协同发音问题。相似文献

4.

段长信息在连续语音识别中的应用研究 总被引：4，自引：1，他引：3

赵庆卫肖熙王作英《声学学报》2000,(2)

基于段长分布的隐含马尔可夫模型（ＤＤＢＨＭＭ）有效地解决了经典ＨＭＭ的缺陷．本文以ＤＤＢＨＭＭ模型为基础,详细研究了如何在连续语音识别中有效地利用段长信息。文中首先介绍了段长分布的统计方法,然后按照不同的说话速度对数据文件进行了分类,据此进行的识别实验表明,段长信息对于速度慢的文件效果最好,速度中等的次之,速度快的效果较小．作者认为,段长信息最大的作用在于能够得到更加精确的音节和状态分割点,并因而提高识别效果．同时,通过段长信息的有效利用,还能够提高识别系统对于说话速度的稳健性、作者又进行了细化研究,提出了利用分类段长和规整化的段长的研究方法,发现两者均可使识别效果有进一步的提高．为了研究如何利用段长之间的相关性,文中还提出了段长的Ｂｉｇｒａｍ的方法,并对之作了分析．最后,本文研究了采用后处理方法利用段长信息的效果,进一步说明了只有基于ＤＤＢＨＭＭ,在识别过程中同步利用段长信息,才能得到卓有成效的性能提高。相似文献

5.

融合分布对齐和对抗学习的无监督跨域声纹识别

下载免费PDF全文

陈志高赵庆卫王丽王文超《声学学报》2021,46(5):767-774

针对声纹识别领域不匹配,且目标领域缺少标注数据的难题,提出在对抗学习基础上融合分布对齐的无监督领域自适应方法,通过训练过程中统计分布的对齐,以减小领域差异,从而提取声音中更有声纹鉴别性的特征,取得了稳定的性能提升.在文本相关的声纹识别任务中,对抗学习和分布对齐的方法能协同发挥作用,等错率相对降低11％;在文本无关的任务... 相似文献

6.

用于语音识别置信度的发音特征各维度分析和子集优化

孙艳庆张晴晴周瑜赵庆卫颜永红《声学学报》2011,36(3)

提出了基于发音特征单个维度的置信度算法,并基于此对发音特征的各个维度展开分析.分析不仅验证了融合的必要性,同时也展示了发音特征各维度之间以及和隐马尔可夫模型之间的大量冗余.为了去除冗余,提出了用子集选择的方法进行优化.对比所有都用的情况,基于发音特征紧凑子集的语音识别置信度估计,在等错率上取得了12.7%的相对下降.把经过优化后的基于发音特征的语音识别置信度估计和基于隐马尔可夫模型的语音识别置信度进行融合,在保持集内识别率不损失的前提下,显著提高了语法外输入测试的拒识性能:在相同参数下,在开发集和测试集上分别取得了34%和35.3%的显著改善. 相似文献

7.

腭裂语音中齿龈塞音的声门代偿现象声学分析与判定

肖彦冯勇强赵庆卫马莲钱靖颜永红《声学学报》2015,40(2):285-293

对齿龈塞音在腭裂语音中的声门塞音代偿现象进行了声学分析,计算频谱分布的多阶统计量—谱矩,并将代偿塞音和正常塞音进行对比。结果显示声门塞音爆破段的第一阶谱矩即频谱质心的频率位置比正常塞音低,因为声门塞音的阻塞部位在声门,导致声道腔体偏长从而共振频率偏低。还观察到声门塞音的第二阶谱矩即标准偏差偏高,说明其谱能量分布比正常塞音更加分散。声门塞音的第三阶谱矩即偏度大多为正值,反映了声门塞音功率谱的非对称性且大头朝向低频区而长尾朝向高频区。采用逻辑回归模型进行样本分类,通过交叉验证选出最优的四阶谱矩作为模型自变量,分类正确率为89.7%。结合塞音爆破时刻自动检测,实现了音节/di/的声门塞音客观判定。相似文献

8.

面向自定义语音唤醒的关键词相关的单通道语音增强

下载免费PDF全文

刘作桢吴愁黎塔赵庆卫《声学学报》2023,48(2):415-424

提出一种面向自定义语音唤醒的单通道语音增强方法。该方法预先将关键词音素信息存入文本编码矩阵,并在常规语音增强模型基础上添加一个基于注意力机制的音素偏置模块。该模块利用语音增强模型中间特征从文本编码矩阵中获取当前帧的音素信息,并将其融入语音增强模型的后续计算中,从而提升语音增强模型对关键词相关音素的增强效果。在不同噪声环境下的实验结果表明,该方法可以更有效地抑制关键词部分噪声。同时所提出方法对比常规语音增强方法与其他文本相关语音增强方法,在自定义语音唤醒性能上可以分别获得14.3%和7.6%的相对提升。相似文献

9.

语音理解中的容错技术的研究 总被引：4，自引：0，他引：4

下载免费PDF全文

张建平王作英赵庆卫陆大《电子学报》2000,28(3):84-86

本文研究了大词汇量非特定人汉语连续语音识别和理解系统中的容错技术.首先,声学识别器产生N个最优(N-best)音节候选及其相应的声学层的概念,再由N个最优音节候选构成一个音节网格(syllable lattice).一个容错语言分析器被用来搜索该音节网格并发现最优的汉字串.由于考虑了额外的可能候选音节,该最优汉字串的某些字的音节可能不在原来的音节网格中.这样,声学层的一些错误被纠正,语言分析器的稳健性(robustness)得以提高.实验表明容错分析器能将字的理解正确率从91.83%提高到94.15%.与传统的无容错技术的基于三元文法模型的分析器相比,错误率下降了28.4%. 相似文献

10.

汉语自然口语中声调识别的研究 总被引：2，自引：0，他引：2

下载免费PDF全文

刘赵杰邵健张鹏远赵庆卫颜永红冯稷《物理学报》2007,56(12):7064-7069

汉语是一种带声调的语言，声调信息在汉语识别中具有非常重要的意义.传统的声调识别一般只研究朗读式语音中相对标准的声调，很少对声调调型比较复杂的自然口语进行专门的处理.针对汉语自然口语的特点，在声调建模单元的选择时提出了真实上下文的模型.同时，为了对声调模式进行精细建模，采用了一种层次聚类的方法来获得更多的声调模式.实验结果证明了方法的有效性. 关键词：声调识别自然口语真实上下文模型聚类相似文献