共查询到20条相似文献,搜索用时 15 毫秒
1.
汉语音节音联感知特性研究 总被引:1,自引:0,他引:1
汉语音联可分为:闭音联、音节音联、节奏音联和停顿音联等四级,其中团音朕最强、音节音联次之,另外两种音联较弱。在以音节为基本单元的汉语合成系统中,闭音联已保留在语音库中,因此需要着重考虑的是音节音联。本文以服务于汉语文语转换系统为目的,通过两个阶段的感知实验,研究了汉语音节音联在听觉感知中的作用。得到以下结论:①从总体上看,听音人对汉语双音节词中音高模式的变化的感知比较灵敏,而对音节间共振峰过波段的感知不灵敏,共振峰过波段对合成语音的自然度的影响不显著。②有语音学知识背景的专家或专业人员在判别合成语音的自然度时,比普通听音人更注意音节间的共振峰过渡。但即使是专家,也不容易判别在合成语音中音节间是否包含了共振蜂的平滑过渡。③双音节调的语音结构对音节间共振峰过渡的感知有影响。双音节词的声调组合对它也有一定影响。 相似文献
2.
提出基于语音生成模型和发音模型RTLA合成模式实现以共振峰轨迹为目标的语音合成的新方法。该方法采用了基于发音声学原理的反射型传输线模型来实现语音合成器。用于控制合成器的声道面积函数参数由以三个共振峰轨迹为目标的语音生成逆向解获得。该方法不仅可以得到动态过渡和自然度好的合成语音,能够方便灵活地控制或改变语音音色,合成器所需的输入控制参数少,参数更新率低。 相似文献
3.
语句的基频曲线预测 总被引:1,自引:1,他引:0
基频曲线预测是文语转换系统中韵律控制的重要内容。基于决策树的分析,本文提出了一个采用三个控制参数,修改一组归一化的音节基频曲线模板,从而生成连续语流基频曲线的预测模型。由于前一音节的声调动态目标将在该音节的偏后部分实现,甚至影响到连接紧密的后一个音节的起始部分,在预测当前音节的控制参数时,前一音节的基频终止值也作为语境参数之一,参与预测,其结果既保持了前后音节基频的连续性,也提高了基频曲线整体预测的准确率。测试表明:预测基频与实际基频的音节内标准误差小于10 Hz。将这一方法应用于PSOLA语音合成系统后,合成语音的自然度令人满意。 相似文献
4.
5.
由中国计算机技术服务公司与中国科学院声学研究所共同研制的。KX+1型共振峰语音合成器于1988年6月30日在北京通过机械电子工业部部级鉴定. 该合成器为长城0520微机系列及其兼容机配备了语音输出功能.合成器可连机(插入微机扩展槽内)或脱机使用.音库包括405个无调音节、26个英文字母和39个键盘符号的语音参数,有6种声调模式,可合成汉字1、2级字库全部音节.建立了变调与轻声等规则9条,除可以键字发音外,还可以对汉字文稿阅读.可适用于各种汉字操作系统的任意汉字输入方 相似文献
6.
根据语音识别和声纹识别等语音应用研究的实际需要,首次对和田方言的声学特性和识别进行研究。首先选取和田方言语音进行人工多层级标注,对元音的共振峰、时长和音强进行统计分析,描绘出和田方言主体格局及男性和女性的发音特点。然后运用方差分析和非参数分析法对维吾尔语3种方言的共振峰样本进行检验,结果表明3种方言的男性元音、女性元音及整体元音的共振峰分布模式存在显著差异。最后,分别构建基于GMM-UBM (Gaussian Mixture Model-Universal Background Model)、DNN-UBM (Deep Neural Networks-Universal Background Model)和LSTM-UBM (Long Short Term MemoryUniversal Background Model)维吾尔语方言识别模型,对基于梅尔频率倒谱系数及其与共振峰频率组合做输入特征提取的方言i-vector区分性进行对比实验。实验结果表明融入共振峰系数的组合特征可以增加方言的辨识度,且LSTM-UBM模型较GMM-UBM和DNN-UBM能提取到更具区分性的方言i-vector。 相似文献
7.
提出了一种采用扩展型双线性变换将耳语音转换为正常语音的方法。根据耳语音在不同频段的共振峰偏移程度不同,将耳语音的频谱进行分段处理,在此基础上建立耳语音转换为正常语音的转换函数。由于耳语音在各频段相对于正常语音非线性偏移,在双线性变换函数中引入扩展因子,使其对频谱的非线性偏移与对共振峰带宽的压缩更加符合耳语音转换为正常语音的实际转换需求,有效减小了转换语音与正常语音的谱失真距离。实验结果表明,本文的转换语音在音质和可懂度上均得到了有效提高。 相似文献
8.
为解决司法话者识别中利用鼻化元音构建元音声学空间图时如何准确判别鼻化元音的口、鼻音共振峰的问题。本文通过计算机语音工作站对语音样本的共振峰进行编辑操作,利用生成的语音样本构建不同的对照组分别进行听辨。结果表明,口音、鼻音共振峰分别被衰减后的语音变化特点呈现一定规律,使用此方法可以准确区分鼻化元音的口、鼻共振峰的阶次。本文建立的“共振峰编辑”与“听觉感知”相结合的判别方法,可以为司法话者识别及语音感知、识别等相关领域通过构建元音声学空间图进行声学特征研究的模型提供口音、鼻音共振峰的判别依据。 相似文献
9.
重音是重要的语调特征,重音合成技术可以提高语音的自然度和表现力。针对重音的局部凸显性,该文提出了声学特征凸显度的表示方法,分析了不同韵律位置(韵律词首、中、尾,韵律短语首、中、尾等)重音音节的声学特征凸显度,发现在韵律单元末(韵律词末音节和韵律短语末韵律词)的重音其基频最大值凸显度要低于非韵律单元末重音,提出了基于声学特征凸显度的非线性的重音声学参数生成算法,解决了传统重音声学参数线性修改算法的修改幅度不足或过大的问题。采用该算法建立了基于隐Markov模型的支持重音合成的语音合成系统。实验表明,该系统可以有效合成带有重音的语音,提高了合成语音的自然度和表现力。 相似文献
10.
《声学学报:英文版》2015,(1)
重音是重要的语调特征,重音合成技术可以提高语音的自然度和表现力。针对重音的局部凸显性,该文提出了声学特征凸显度的表示方法,分析了不同韵律位置(韵律词首、中、尾,韵律短语首、中、尾等)重音音节的声学特征凸显度,发现在韵律单元末(韵律词末音节和韵律短语末韵律词)的重音其基频最大值凸显度要低于非韵律单元末重音,提出了基于声学特征凸显度的非线性的重音声学参数生成算法,解决了传统重音声学参数线性修改算法的修改幅度不足或过大的问题。采用该算法建立了基于隐Markov模型的支持重音合成的语音合成系统。实验表明,该系统可以有效合成带有重音的语音,提高了合成语音的自然度和表现力。 相似文献
11.
12.
汉语语音资料库的语音学标记及人工切分 总被引:2,自引:0,他引:2
介绍了汉语语音综合资料库的一个子库:CAS-SYL。该数据库包括汉语全部有调音节1267个,共计10个发音人;全部语音数据由人工完成音段切分及语音学标注。针对汉语音节的声韵结构,语音学标注水平被定位在半音节层次上.语音学标注符号系统采用了计算机可读的音标符号系统一汉语SAMPA-X(extendedSAMPhoneticAlphabet).还介绍了语音学标注策略,音段定位原则,基于语音波形的声门关闭时刻:GCI(GlottalClosedInstant)的声学线索。同时对声韵间的协同发音的声学体现进行了总结。最后对人工切分带来的非稳定性进行了分析. 相似文献
13.
提出一种短时频谱通用背景模型群与韵律参数相结合进行年龄语音转换的方法。谱参数转换方面,同一年龄段各说话者提取语音短时谱系数并建立高斯混合模型,然后依据语音特征相似性对说话者进行聚类,每一类训练一个通用背景模型,最终得到通用背景模型群和一组短时频谱转换函数。谱参数转换之后再对共振峰进一步微调。韵律参数转换方面,基频和语速分别建立单高斯和平均时长率模型来推导转换函数。实验结果显示,提出的方法在ABX和MOS等评价指标上比传统的双线性法有明显的优势,相对单一通用背景模型法的对数似然度变化率提高了4%。这一结果表明提出的方法能够使转换语音具有良好目标倾向性的同时有较好的语音质量,性能较传统方法有明显提升。 相似文献
14.
本文在分析了汉语单音节发音的音节结构的基础上,定义了基于声韵母类的语音识别单元,从声学角度确定了用于汉语全音节识别系统的声学单元,并研究了这些声学单元的检测一致性及基于这些单元的识别系统的鲁棒性。文中还对大量的发音人的声母类发音的长度作了统计,给出了基于本文给出的分割算法和本文定义的声母单元下的声母长度预分类方法。通过在非特定人全音节汉语语音识别系统上的应用表明,本文定义的语音识别单元具有很高的检测一致性,建立在其上的识别,系统也具有很高的鲁棒性;文中给出的预选方法在最好的情况下,可以减少一半以上的运算量,而预选精度几乎达到100%。 相似文献
15.
汉语连续语音识别中一种新的音节间相关识别单元 总被引:1,自引:0,他引:1
考虑汉语连续语音中的协同发音现象对语音识别性能的提高是非常重要的。针对汉语语音的特点,提出了一种新的在汉语连续语音识别中考虑音节间协同发音现象,对声学模型进行细化的识别单元。然后基于语音学知识对音节间上下文影响进行分类,实现单元间状态参数的共享,降低了模型的复杂程度,保证了模型的可训练度。这种方法和传统方法的最大不同在于:这种方法完全利用语音学知识进行聚类,而传统方法采用数据驱动的聚类方式。识别实验表明,基于语音学分类的音节间相关识别单元对识别性能有明显的改善,系统的首选误识率降低了17%。 相似文献
16.
17.
18.
提出了一种基于对识别器识别错误的统计分析建立音节混淆字典,并应用该音节混淆字典作为识别器的先验知识来校正结果的识别方法。这种近似的音节混淆字典可以分与语境无关和相关两种情况讨论,作为一种先验知识,它综合地刻画了说话人的发音特征、识别器的识别特征以及二者之间的相对关系。实验中,我们应用语境无关/相关的音节混淆字典于识别带上海口音的普通话识别器,使其音节误识率分别下降15%及20%。在此基础上,本论文结合常规的声学模型参数重估自适应MAP(最大后验概率)算法进一步研究了这种方法应用于语音识别系统的实际效果。结果证明,二者互为补充,更大地提高了识别器的精度。 相似文献
19.
20.
基于发音特征的汉语普通话语音声学建模 总被引:3,自引:0,他引:3
将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概率作为语音识别的输入特征建立声学模型。在汉语普通话非特定人大词表自然口语对话识别系统中进行了实验验证,并与基于频谱特征的声学模型进行了比较,在相同解码速度下,由此方法建立的声学模型汉字错误率相对下降6.8%;将发音特征和频谱特征进行了融合实验,融合以后的识别系统相对基于频谱特征系统的汉字错误率相对下降10.1%。上述结果表明,基于发音特征的声学模型更加有效的实现了对语音特性的表征,通过利用发音特征和频谱特征的互补性,能够进一步实现对语音识别性能的提高。 相似文献