期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

祖漪清《声学学报》1999,(3)

质量优良的语音识别系统或语音合成系统需要高质量的、在语音学和语言学知识指导下设计的科学合理简洁有效的连续语音数据库的支持．在目前阶段,汉语语音数据库应限制在朗读言语（readspeech）的音段方面。为了描写语流中的音变现象,考虑如下语音单元：（1）不计声调的音节（401个）。（2）音节间的双音子415个。（3）音节间的三音子3035个,这是根据37个基本音子,利用音节间共振峰过渡的研究结果,按规则规纳的结果．（4）所有音节间过渡段的韵母一声母结构,采用和同三音子相同的归并方法,共781个．为了增加不同的韵律结构,并考虑语音识别系统的后处理,语料还包括汉语的17类基本句型．选用1993、1994两年的“人民日报”、“百家报刊精选”及若干电视剧本、词典词库作为语料库的原始语料,从中选出2185个句子和388个短语作为朗读语料,它们覆盖了99．8％个无调音节,100％的双音子,99．6％的三音子,以及17类句型。相似文献

2.

共振峰编辑法区别鼻化元音中口、鼻音共振峰的实证探究*

下载免费PDF全文

赵擎华杨俊杰《应用声学》2021,40(6):937-945

为解决司法话者识别中利用鼻化元音构建元音声学空间图时如何准确判别鼻化元音的口、鼻音共振峰的问题。本文通过计算机语音工作站对语音样本的共振峰进行编辑操作，利用生成的语音样本构建不同的对照组分别进行听辨。结果表明，口音、鼻音共振峰分别被衰减后的语音变化特点呈现一定规律，使用此方法可以准确区分鼻化元音的口、鼻共振峰的阶次。本文建立的“共振峰编辑”与“听觉感知”相结合的判别方法，可以为司法话者识别及语音感知、识别等相关领域通过构建元音声学空间图进行声学特征研究的模型提供口音、鼻音共振峰的判别依据。相似文献

3.

基于语音生成和发音模型的语音合成新方法的探讨

俞振利程伯中《声学学报》2000,(5)

提出基于语音生成模型和发音模型ＲＴＬＡ合成模式实现以共振峰轨迹为目标的语音合成的新方法。该方法采用了基于发音声学原理的反射型传输线模型来实现语音合成器。用于控制合成器的声道面积函数参数由以三个共振峰轨迹为目标的语音生成逆向解获得。该方法不仅可以得到动态过渡和自然度好的合成语音,能够方便灵活地控制或改变语音音色,合成器所需的输入控制参数少,参数更新率低。相似文献

4.

连续话语中双音节韵律词的重音感知 总被引：5，自引：1，他引：4

王韫佳初敏贺琳冯勇强《声学学报》2003,(6)

对于从微软亚洲研究院的汉语语音语料库中获得的300个语句中的1,898个双音节韵律词进行了重音感知实验,实验结果表明,连续话语中双音节词的重音感知特点与孤立词的重音感知特点有所不同,它受到词所在的韵律边界的显著影响。在感知实验中,词内两音节的重音得分之差与它们的高音点音高差和时长差都表现出正相关,但与高音点音高差的相关强于与时长差的相关。高音点音高差和时长差在非停顿前不相关,在停顿前为较弱的正相关。实验结果还表明,音节的重音感知受到调型的显著影响。相似文献

5.

粤语文语转换系统研究 总被引：2，自引：0，他引：2

龙庆华金惠生任平司徒锡康《声学学报》1993,(2)

由于计算机辅助数学(CAI)发展的需要,我们基于IBM系列微机,建立了一个粤语(广州话)文语转换系统。通过对粤语发音规律及语音参数的研究,此系统应用了共振峰参数语音合成技术,以无调音节和声调模式为基本合成单元,从自然语流中提取每个音节的共振峰语音参数并建立了供合成用的语音参数库。为实现计算机上的文语转换,自行编制了语音管理程序。此系统实现了国家一、二级汉字的广州话读音。日、英、俄文字母的发音及若干科学符号的广州话读音。且实现了计算机显示及相应发音的自由控制。相似文献

6.

汉语重音的凸显度分析与合成

《声学学报：英文版》2015,(1)

重音是重要的语调特征,重音合成技术可以提高语音的自然度和表现力。针对重音的局部凸显性,该文提出了声学特征凸显度的表示方法,分析了不同韵律位置(韵律词首、中、尾,韵律短语首、中、尾等)重音音节的声学特征凸显度,发现在韵律单元末(韵律词末音节和韵律短语末韵律词)的重音其基频最大值凸显度要低于非韵律单元末重音,提出了基于声学特征凸显度的非线性的重音声学参数生成算法,解决了传统重音声学参数线性修改算法的修改幅度不足或过大的问题。采用该算法建立了基于隐Markov模型的支持重音合成的语音合成系统。实验表明,该系统可以有效合成带有重音的语音,提高了合成语音的自然度和表现力。相似文献

7.

汉语语音合成系统评价方法 总被引：1，自引：0，他引：1

张家騄齐士钤俞舸《声学学报》1998,(1)

从1994年开始，对汉语语音合成系统的工作性能定期举行全国评测．采用语言清晰度测试方法，1994年对五个不同的合成系统进行了评测和诊断．听音人为16名大学生（男8，女8），对合成言语没有经验．听音人响应是开放的听音记录．同时，还采用十点主观评价（MOS）测定言语自然度．为给出各合成系统音段层的诊断信息，对合成语音的辅音知觉混淆矩阵进行了分析．借助于对比自然言语和合成言语在不同语言层次上清晰度试验得分间的统计关系，来考察合成系统韵律特征处理的缺陷．结果表明，采用上述方法可得到评测合成系统工作性能的稳定合理的指标．有关韵律特征的评价方法有待于进一步发展．相似文献

8.

语句的基频曲线预测 总被引：1，自引：1，他引：0

胡文英祖漪清王志中《声学学报》2006,31(1):19-27

基频曲线预测是文语转换系统中韵律控制的重要内容。基于决策树的分析,本文提出了一个采用三个控制参数,修改一组归一化的音节基频曲线模板,从而生成连续语流基频曲线的预测模型。由于前一音节的声调动态目标将在该音节的偏后部分实现,甚至影响到连接紧密的后一个音节的起始部分,在预测当前音节的控制参数时,前一音节的基频终止值也作为语境参数之一,参与预测,其结果既保持了前后音节基频的连续性,也提高了基频曲线整体预测的准确率。测试表明:预测基频与实际基频的音节内标准误差小于10 Hz。将这一方法应用于PSOLA语音合成系统后,合成语音的自然度令人满意。相似文献

9.

汉语双音节调位的矢量量化(VQ)研究

孔江平吕士楠《声学学报》2000,(2)

本项研究从实际语音材料出发,运用曲线拟合和矢量量化的方法,对汉语双音节调位的模型进行了系统地研究。研究结果表明;（１）利用曲线拟合和矢量量化技术对汉语双字词声调组合进行模式归类是一种可行和有效的方法。（２）虽然在部分声调组合中不同样品间的离散比较小,但大部分双音节词的声调组合模式可以分为几个子类,因此用一个总体平均的统计模式是不够的．（３）音高曲线的差异明显表现为声调高音点的不同,它是与双字词的音节重音模式相关联的。相似文献

10.

汉语普通话中双焦点的产出及其感知

下载免费PDF全文

王蓓刘璐张夏夏 Caroline Féry 《声学学报》2019,44(1):1-11

以往的研究发现双焦点句中第一个焦点后往往缺少音高压缩。这一现象是否与两个焦点间的音节数有关?实验控制了焦点词的位置和句子长度两个因素,发现双焦点句中两个焦点既相互独立又相互依存.独立性表现为每个焦点有各自的实现范围,其音高升高和时长延长都和所对应的单焦点的条件接近;依存性表现为两个焦点可以在同一个语调短语内共存。第一个焦点后因为有了韵律短语边界而缺少音高压缩,而与两个焦点间的音节数没有直接关系。感知实验的结果显示:双焦点的辨认正确率显著低于句首单焦点。这主要因为同时判别两个焦点的难度比较高。如果只要求听音人关注第一个焦点,其辨认率明显提高,且与句首单焦点的判断正确率无显著差异。可见,在双焦点句中,句首和句末焦点的判断有不对称性。音高和时长的增加可以保证句首焦点的正确感知,但不能保证句末焦点的正确感知。总体来说,两个焦点中句首焦点在感知上有更高的突显度。相似文献

11.

汉语重音的凸显度分析与合成

孟凡博吴志勇贾珈蔡莲红《声学学报》2015,40(1):1-11

重音是重要的语调特征,重音合成技术可以提高语音的自然度和表现力。针对重音的局部凸显性,该文提出了声学特征凸显度的表示方法,分析了不同韵律位置(韵律词首、中、尾,韵律短语首、中、尾等)重音音节的声学特征凸显度,发现在韵律单元末(韵律词末音节和韵律短语末韵律词)的重音其基频最大值凸显度要低于非韵律单元末重音,提出了基于声学特征凸显度的非线性的重音声学参数生成算法,解决了传统重音声学参数线性修改算法的修改幅度不足或过大的问题。采用该算法建立了基于隐Markov模型的支持重音合成的语音合成系统。实验表明,该系统可以有效合成带有重音的语音,提高了合成语音的自然度和表现力。相似文献

12.

汉语连续语音识别中一种新的音节间相关识别单元 总被引：1，自引：0，他引：1

李春王作英《声学学报》2003,(2)

考虑汉语连续语音中的协同发音现象对语音识别性能的提高是非常重要的。针对汉语语音的特点,提出了一种新的在汉语连续语音识别中考虑音节间协同发音现象,对声学模型进行细化的识别单元。然后基于语音学知识对音节间上下文影响进行分类,实现单元间状态参数的共享,降低了模型的复杂程度,保证了模型的可训练度。这种方法和传统方法的最大不同在于:这种方法完全利用语音学知识进行聚类,而传统方法采用数据驱动的聚类方式。识别实验表明,基于语音学分类的音节间相关识别单元对识别性能有明显的改善,系统的首选误识率降低了17％。相似文献

13.

语音特性及声场因素对老年人警报语音可懂度和主观感受的影响*

下载免费PDF全文

王炜宇马蕙王超《应用声学》2023,42(4):844-852

警报语音广播是紧急情况时提高建筑物内疏散效率的有效手段。通过实验室研究的方法,研究了语音特性及声场因素对老年群体警报语音可懂度和主观感受的影响。主观感受选取了听音容易程度和感知紧迫性两个维度。研究结果表明,老年人警报语音可懂度和听音容易程度评价主要受语速、信噪比和混响时间的影响,且呈现一致的变化趋势,即随着语速和混响时间降低以及信噪比的增加,老年人可懂度和听音容易程度得分均升高,而声压级(最低设置为60dB)、有无警铃和噪声类型没有显著影响。感知紧迫性随语速和声压级的增加而显著增加,信噪比、混响时间及有无警铃声对感知紧迫性并无显著影响。采用人声播报的警报语音其可懂度和感知紧迫性显著高于合成声。比较老年人和年轻人群体的结果发现,在语速、声压级和噪声类型对主观评价的影响上有显著差异。为建立老年人理想且安全的声环境,应采用人声播报并适当降低语速以保证可懂度,同时混响及信噪比条件两方面的改善都是必要的。相似文献

14.

KX-1型共振峰语音合成器通过鉴定

下载免费PDF全文

齐士钤《应用声学》1988,7(4):45-45

由中国计算机技术服务公司与中国科学院声学研究所共同研制的。KX+1型共振峰语音合成器于1988年6月30日在北京通过机械电子工业部部级鉴定. 该合成器为长城0520微机系列及其兼容机配备了语音输出功能.合成器可连机(插入微机扩展槽内)或脱机使用.音库包括405个无调音节、26个英文字母和39个键盘符号的语音参数,有6种声调模式,可合成汉字1、2级字库全部音节.建立了变调与轻声等规则9条,除可以键字发音外,还可以对汉字文稿阅读.可适用于各种汉字操作系统的任意汉字输入方相似文献

15.

多路实时、高音质数字串合成系统

刘庆峰膝永盛王仁华《声学学报》1999,(5)

根据汉语普通话中数字串发音的韵律规则和特点,利用LMA语音合成器,实现了一种全新的数字串报号系统。本系统可以在不足300kbytes的极小的音库容量下,通过采用预先计算、查表拼接快速处理方法,在各种特定应用场合下多路实时实现高自然度、高音质的任意多位的数字号码的合成语音。测听实验和用户反馈信息均表明,合成输出语音的听觉效果已经可以与播音员原始发音相媲美。相似文献

16.

准动态元音分析方法 总被引：1，自引：1，他引：0

张家騄齐士钤吕士楠《声学学报》1979,(1)

文中提出一种用基频扫描和频谱重叠——准动态的方法,来较精确地测量元音共振峰和频谱包络.这一方法的优点在于:l)测量方法简单,并且直接获得结果,不需引入某些假定或近似条件来进行计算;2)可得到较多的简正方式,特别是,对一些高元音,用传统的方法不易直接测得第一共振峰;3)这一方法还特别适应并发挥了汉语作为有声调语言的特点. 在运用本文所述方法进行分析的过程中,还指出了,对于汉语声调和共振峰不仅在发音过程中而且在感知过程中也是相互独立的.文中还给出了普通话十个单元音的第一、第二共振峰的数据. 相似文献

17.

一种面向声音变换的参数化模型

黄德智蔡莲红《声学学报》2006,31(6):542-548

在源滤波器模型的基础上,利用统计学习方法,建立了一种面向声音变换的混合参数化模型。该模型包括浊音声学模型、清音声学模型和韵律补偿模型三部分。基于线性预测分析和mel倒谱分析的浊音声学模型,刻画了说话人声腔的共振特性。基于线性预测分析和噪声源分析的清音声学模型,反映了说话人发清音的特点。基于统计学习方法的韵律补偿模型描述了音高、能量与时长等分布特性。在该混合参数化模型的基础上,提出了一个声音变换算法,并将其应用到汉语音节的变换问题上。实验结果表明,对清浊音和韵律特性分别建模的变换算法能够提高重建语音的清晰度和可懂度,缩小重建语音与目标语音之间的感知距离,使重建语音具有目标说话人的韵律特征．相似文献

18.

基于Seneff听觉谱特征的汉语连续语音声韵母边界检测

下载免费PDF全文

陈斌张连海王波屈丹《声学学报》2012,37(1):104-112

提出了一种基于声韵母能量分布和共振峰结构特性的汉语连续语音声韵母边界检测方法。该方法首先将语音经过Seneff听觉感知模型得到听觉谱,然后基于听觉谱,选取全频带能量、低频带能量、谱重心、高低频能量比、中高频能量等特征参数对各声韵母类别能量分布和共振峰结构特性进行描述,最后根据特征参数变化剧烈的点确定出声韵母边界,并采用包络的一阶差分和基于样点的Kullback-Leibler距离对得到的边界进行修正。实验结果表明,对8 kHz采样的语音边界检测准确率可达到93.7%;信噪比10dB的语音边界检测准确率可达到85.3%以上;经过参数编码后语音边界检测准确率可达86 7%以上。相似文献

19.

采用扩展型双线性变换法将耳语音转换为正常语音的研究

下载免费PDF全文

陶智赵鹤鸣谈雪丹顾济华张晓俊吴迪《声学学报》2012,37(6):651-658

提出了一种采用扩展型双线性变换将耳语音转换为正常语音的方法。根据耳语音在不同频段的共振峰偏移程度不同,将耳语音的频谱进行分段处理,在此基础上建立耳语音转换为正常语音的转换函数。由于耳语音在各频段相对于正常语音非线性偏移,在双线性变换函数中引入扩展因子,使其对频谱的非线性偏移与对共振峰带宽的压缩更加符合耳语音转换为正常语音的实际转换需求,有效减小了转换语音与正常语音的谱失真距离。实验结果表明,本文的转换语音在音质和可懂度上均得到了有效提高。相似文献

20.

低码率语音编码中过渡帧对合成语音的影响*

肖东莫福源陈庚马力《应用声学》2016,35(1):77-83

过渡段对语音清晰度、可懂度和人耳听觉感知都起到不可忽视的作用。参数语音编码中,包含有过渡段的语音帧能否得到恰当处理,是决定其合成语音是否清晰可懂的关键。本文以混合激励线性预测编码为参考,将其中的语音帧划分为静音、清音、浊音、过渡四大类后分别处理,在以往低码率语音编码(1 kbps)工作基础上,比较了八种过渡帧划分方法对合成语音PESQ MOS的影响。经分析后发现:不同的过渡帧对PESQ MOS的贡献也不同。由清、静音向浊音变化的过渡帧的贡献最大;介于浊辅音与元音之间的过渡帧的贡献也不应被忽略。相似文献