期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

常见的多说话人语音合成有参数自适应及添加说话人标签两种方法。参数自适应方法获得的模型仅支持合成经过自适应的说话人的语音,模型不够鲁棒。传统的添加说话人标签的方法需要有监督地获得语音的说话人信息,并没有从语音信号本身无监督地学习说话人标签。为解决这些问题,提出了一种基于变分自编码器的自回归多说话人语音合成方法。方法首先利用变分自编码器无监督地学习说话人的信息并将其隐式编码为说话人标签,之后与文本的语言学特征送入到一个自回归声学参数预测网络中。此外,为了抑制多说话人语音数据引起的基频预测过拟合问题,声学参数网络采用了基频多任务学习的方法。预实验表明,自回归结构的加入降低了频谱误差1.018 dB,基频多任务学习降低了基频均方根误差6.861 Hz。在后续的多说话人对比实验中,提出的方法在3个多说话人实验的平均主观意见分(MOS)打分上分别达到3.71,3.55,3.15,拼音错误率分别为6.71%,7.54%,9.87%,提升了多说话人语音合成的音质。相似文献

语言声学进展及其应用

下载免费PDF全文

颜永红《应用声学》2009,28(2):81-89

本文对语言声学研究的最新进展进行综述。首先介绍了人类的言语的产生和感知以及声学分析方面的近期发展,接着重点阐述了计算机处理人类语音(包括语音识别和合成,发音评估以及演唱评价)的最新研究、成果。同时提及了这些研究成果的相关应用。最后是总结与展望。相似文献

端到端的藏语语音合成方法

下载免费PDF全文

拉巴顿珠珠杰欧珠尼玛《应用声学》2023,42(2):324-332

近年来，得益于计算机运算能力的提高和语音数据的不断积累，涌现出许多基于机器学习的语音处理新技术，其中基于深度神经网络算法，端到端的Tacotron2语音合成系统框架得到业界广泛的青睐。它是一个开源程序，简单易行，已成功地应用于多种语言和不同音色的语音合成。该文研究Tacotron2在藏语中的应用，取得了良好的实验结果。首先，通过自然语音采集、自动标注、声学分析等构建了一个中等规模(5500句)藏语卫藏方言的语音语料库，其中包括藏文音素转写、特殊符号处理和Mel谱等各项数据；其次，利用开源程序Tacotron2和上述语音库进行了藏语语音合成试验；最后，通过对合成语音和自然语音的偏差分析，和对合成语音的自然度的主观评价，表明了基于端到端的藏语语音合成方法有效地减少合成语音的频谱蜕变，提升了合成语音的自然度。因此，基于“端到端”的Tacotron2合成框架在藏语语音合成中具有重要的应用价值，值得进一步研究和推广应用。相似文献