期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

重音是重要的语调特征,重音合成技术可以提高语音的自然度和表现力。针对重音的局部凸显性,该文提出了声学特征凸显度的表示方法,分析了不同韵律位置(韵律词首、中、尾,韵律短语首、中、尾等)重音音节的声学特征凸显度,发现在韵律单元末(韵律词末音节和韵律短语末韵律词)的重音其基频最大值凸显度要低于非韵律单元末重音,提出了基于声学特征凸显度的非线性的重音声学参数生成算法,解决了传统重音声学参数线性修改算法的修改幅度不足或过大的问题。采用该算法建立了基于隐Markov模型的支持重音合成的语音合成系统。实验表明,该系统可以有效合成带有重音的语音,提高了合成语音的自然度和表现力。相似文献

5.

基于统计声学模型的单元挑选语音合成算法

尚增强张鹏远王丽《声学学报》2024,21(1):171-180

在多语种语音合成任务中, 由于单人多语种数据稀缺, 让一个音色同时支持多种语言合成变得非常困难。不同于已有方法仅在声学模型中解耦音色和发音, 提出一种融合跨说话人韵律迁移的端到端多语种语音合成方法, 采用两级层级条件变分自编码器直接建模从文本到波形的生成过程, 并解耦了音色、发音和韵律等信息。该方法通过迁移目标语种已有说话人的韵律风格来改善跨语种合成的韵律。实验表明, 所提模型在跨语种语音生成上获得了3.91和4.01的自然度和相似度平均意见得分, 相比基线跨语种合成字错误率降低到5.85%。韵律迁移以及消融实验也进一步证明了该方法的有效性。

相似文献

6.

使用变分自编码器的自回归多说话人中文语音合成

下载免费PDF全文

蒿晓阳张鹏远《声学学报》2022,47(3):405-416

常见的多说话人语音合成有参数自适应及添加说话人标签两种方法。参数自适应方法获得的模型仅支持合成经过自适应的说话人的语音,模型不够鲁棒。传统的添加说话人标签的方法需要有监督地获得语音的说话人信息,并没有从语音信号本身无监督地学习说话人标签。为解决这些问题,提出了一种基于变分自编码器的自回归多说话人语音合成方法。方法首先利用变分自编码器无监督地学习说话人的信息并将其隐式编码为说话人标签,之后与文本的语言学特征送入到一个自回归声学参数预测网络中。此外,为了抑制多说话人语音数据引起的基频预测过拟合问题,声学参数网络采用了基频多任务学习的方法。预实验表明,自回归结构的加入降低了频谱误差1.018 dB,基频多任务学习降低了基频均方根误差6.861 Hz。在后续的多说话人对比实验中,提出的方法在3个多说话人实验的平均主观意见分(MOS)打分上分别达到3.71,3.55,3.15,拼音错误率分别为6.71%,7.54%,9.87%,提升了多说话人语音合成的音质。相似文献

7.

语言声学进展及其应用

下载免费PDF全文

颜永红《应用声学》2009,28(2):81-89

本文对语言声学研究的最新进展进行综述。首先介绍了人类的言语的产生和感知以及声学分析方面的近期发展,接着重点阐述了计算机处理人类语音(包括语音识别和合成,发音评估以及演唱评价)的最新研究、成果。同时提及了这些研究成果的相关应用。最后是总结与展望。相似文献

8.

端到端的藏语语音合成方法

下载免费PDF全文

拉巴顿珠珠杰欧珠尼玛《应用声学》2023,42(2):324-332

近年来，得益于计算机运算能力的提高和语音数据的不断积累，涌现出许多基于机器学习的语音处理新技术，其中基于深度神经网络算法，端到端的Tacotron2语音合成系统框架得到业界广泛的青睐。它是一个开源程序，简单易行，已成功地应用于多种语言和不同音色的语音合成。该文研究Tacotron2在藏语中的应用，取得了良好的实验结果。首先，通过自然语音采集、自动标注、声学分析等构建了一个中等规模(5500句)藏语卫藏方言的语音语料库，其中包括藏文音素转写、特殊符号处理和Mel谱等各项数据；其次，利用开源程序Tacotron2和上述语音库进行了藏语语音合成试验；最后，通过对合成语音和自然语音的偏差分析，和对合成语音的自然度的主观评价，表明了基于端到端的藏语语音合成方法有效地减少合成语音的频谱蜕变，提升了合成语音的自然度。因此，基于“端到端”的Tacotron2合成框架在藏语语音合成中具有重要的应用价值，值得进一步研究和推广应用。相似文献