首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 101 毫秒
1.
陈斌  张连海  王波  屈丹 《声学学报》2012,37(1):104-112
提出了一种基于声韵母能量分布和共振峰结构特性的汉语连续语音声韵母边界检测方法。该方法首先将语音经过Seneff听觉感知模型得到听觉谱,然后基于听觉谱,选取全频带能量、低频带能量、谱重心、高低频能量比、中高频能量等特征参数对各声韵母类别能量分布和共振峰结构特性进行描述,最后根据特征参数变化剧烈的点确定出声韵母边界,并采用包络的一阶差分和基于样点的Kullback-Leibler距离对得到的边界进行修正。实验结果表明,对8 kHz采样的语音边界检测准确率可达到93.7%;信噪比10dB的语音边界检测准确率可达到85.3%以上;经过参数编码后语音边界检测准确率可达86 7%以上。   相似文献   

2.
李皓  唐朝京 《声学学报》2012,37(3):339-345
为实现鲁棒的声韵母切分,以满足大词汇量连续语音识别系统的需求,提出一种建立损失函数,并利用浊音的“准”周期性和声母时长进行声韵母切分的方法。首先计算语音的自相关函数,接着建立代价损失函数,对计算结果采用动态规划方法检测浊音,然后根据声母时长分布规律确定声母的检测范围,最后在检测范围内对浊音段起始点前后采用听觉事件检测方法分割出声韵母。实验结果表明,采用动态规划方法相对于阈值方法提高了浊音段的检测性能,在浊音段的基础上对声韵母进行切分能够提高切分的正确率,减少噪声及汉语音变现象的影响,切分性能受声母发音方式影响较小。   相似文献   

3.
基于听觉模型的耳语音的声韵切分   总被引:5,自引:0,他引:5       下载免费PDF全文
丁慧  栗学丽  徐柏龄 《应用声学》2004,23(2):20-25,44
本文分析了耳语音的特点,并根据生理声学及心理声学的基本理论与实验资料,提出了一种利用听觉模型来进行耳语音声韵切分的方法。这种适用于耳语音声韵切分的听觉感知模型主要分为四个层次:耳蜗对声音频率的分解机理;听觉系统的时域和频域非线性变化;中枢神经系统的侧抑制机理。这种模型能反映在噪声环境下人对低能量语音的听觉感知特性,因而适于耳语音识别,在耳语音声韵母切分实验中得到了满意的结果。  相似文献   

4.
汉语听觉视觉双模态数据库CAVSR1.0   总被引:8,自引:0,他引:8  
听觉视觉双模态语音识别在国际上已经逐渐成为当前语音识别的热点之一,汉语的双模态识别研究也已开始启动。然而,由于视觉信息获取及处理难度极大,目前的双模态语音数据库的建设尚显薄弱,汉语方面更是空白。鉴于此,我们在进行听觉视觉双模态语音识别关键技术研究的同时,在分析国外同类数据库的结构的基础上,结合汉语语音的特点,建立了汉语语音的第一个双模态数据库CAVSR1.0。它具有如下特点:采用的语料涵盖所有声韵母,其规模(总数据量、音节量)超出目前国际上同类数据库;语料分布符合汉语声韵母的实际分布概率,因此其反映的规律具有代表性;捆绑了自动音节分割程序及脸部主要特征标定程序,使数据库具有很强的可扩展性。  相似文献   

5.
基于半波差分谱的语音信号音节切分   总被引:1,自引:1,他引:0  
根据听觉感知系统对于动态语音特征的响应特点,提出了半波差分港的概念,在此基础上提出了一种简便的音节切分算法,可以将存在大量协同发音现象的连续语音切分成一个个音节。在连续语音上的切分实验结果说明这种切分算法是准确而可靠的.  相似文献   

6.
提出了全局谱参数下的耳语说话人状态因子分析方法。首先,根据耳语听辨实验结果,提出导入唤醒度-愉悦度因子对说话人状态进行三级度量;其次,提取耳语音正弦模型、人耳听觉模型下的谱参数,结合其他短时频谱参量,进行轨迹跟踪并计算各参数的全局统计变量,作为特征参数来实现耳语说话人状态的分类。实验结果显示,正弦模型及人耳听觉模型的全局谱参数可将耳语说话人状态因子分类系统的准确率提高至90%。该分类方法及状态因子描述方案提供了耳语音说话人状态分析的有效途径。   相似文献   

7.
邵健  赵庆卫  颜永红 《声学学报》2010,35(5):587-592
研究汉语自然口语识别中的建模单元选择问题。在HMM三状态模型中,声韵母单元与音素单元作为两种最流行的建模单元各有优劣。一方面从自然口语音变严重的问题出发,倾向采用粗粒度的声韵母单元以概括各种音变;另一方面从三状态结构可能无法有效描述复杂单元的问题出发,又倾向采用细粒度的音素单元。本文在实验语音学理论研究成果与声韵母时长分析实验结果的基础上,主张对扩展声韵母单元进行有选择的拆分,提出了基于鼻韵尾分离的声韵母拆分方法。实验结果表明本文的方法与扩展声韵母单元、音素单元相比,识别性能有了明显改善,其字错误率分别降低2.23%和9.45%。   相似文献   

8.
李贤  於俊  汪增福 《声学学报》2014,39(4):509-516
面向情感语音转换,该文提出了一种韵律转换方法。该方法包含基频转换和时长转换两个部分,前者选择离散余弦变换(DCT)参数化基频,根据基频的层次结构特点,将基频分解为短语层和音节层两个层次,使用基于混合高斯模型(GMM)的转换方法对两个层次分别进行转换;后者使用基于分类回归树(CART)的方法以声韵母为基本单位对时长进行转换。一个包含三种基本情感的语料库用作训练和测试,客观评测以及主观评测实验结果显示该方法可有效进行情感韵律转换,其中悲伤情感在主观实验中达到了接近100%的正确率。   相似文献   

9.
普通话单韵母的听觉规范   总被引:1,自引:0,他引:1  
用普通话若干孤立单韵母作语音材料,有三级性别或年龄不同的发音人,通过声学分析和统计分析,比较了言语识别预加工的三种听觉模型.这些模型由几种不同的听觉变换和规范构成.实验的效果表明,最佳的听觉变换为Erb,但几种规范之间却没有明显的差别.Chistovich的频谱重心效应对普通话单韵母也是适用的,韵母的临界距离估算为3.0Bark或3.5Erb.  相似文献   

10.
一种基于音素模型感知度的发音质量评价方法   总被引:1,自引:1,他引:0  
张茹  韩纪庆 《声学学报》2013,38(2):201-207
为了提高发音质量判别精度,提出了一种基于音素模型感知度的发音质量评价方法。它采用不同语音样本集合下样本声学特征的对数后验概率期望差作为音素模型对变异发音的感知度,并以此为基础,生成各音素对应的识别模型候选集。实验表明,所提出的方法使语音识别网络候选音素模型集合尺寸减少约95%;在非母语语音数据库上,该方法评分与人工专家打分相关性为0.828,基于该方法得到的声韵母错误检出率为70.8%,声调错误检出率为42.5%,均优于其它方法。   相似文献   

11.
根据混响环境下的汉语单音节清晰度实验,采用多维尺度和聚类分析的方法得到了混响作用下声母、韵母的知觉空间结构和层次逻辑关系。发现混响环境下声母的主要知觉特征是舌的发音部位(摩擦部位)和送气一不送气,其中舌的发音部位是声母最重要的知觉特征;韵母的主要知觉特征是起始部分元音的舌位。声母的清一浊特征和韵母的韵尾在混响环境下对语音知觉几乎不起作用。实验结果也揭示出语音的知觉特征与物理传递条件的相关性。   相似文献   

12.
The distinctive features, which axe one of the important research subjects in Phonetics and Phonology and in speech technology also, are the ultimate units of speech. Firstly a phoneme system of the standard Chinese-Putonghua was determined based on the results of cluster analysis of perceptual confusion of speech sounds of Putonghua. Then according to the principle of choice between the two opposites proposed by Jakobson, Fant and Halle, considering the characteristics of Putonghua the distinctive feature values for Initials, Finals and Tones were determined in this paper. And the features have been formulated at both acoustic level and genetic level. The distinctive feature trees of Chinese initials and finals were drawn in addition to the feature tables, in order to understand the distinctive features for individual phoneme easily.  相似文献   

13.
本文对普通话书面语中声母、韵母的动态与静态分布特性及其差异作了统计分析,结果表明:普通话声母间的、韵母的动态与表态的相对分布关系一致,语音间的相对分布主要与发声系统有关,不受频度的影响。普通话声母、韵母的动态与静态的出现率差异,与声母发音方法和韵线组合结构、声母发音部位与韵母四呼的配合关系、音节的成字率和字的频度有关,主要受送气与不送气声母、韵母的动态与静态的出现率差异最大,多音节词中的韵母的动态  相似文献   

14.
I.Intr0ductionNowadays,thereismuchadvancemcntinthcrcsearchintospeechrecognition.Manyresearchershavebecninterestedintheimplementationofareliab1crealtimerec-ognitionsystemofunlimitedv0cabu1ary.Thercareafewproductsconversingsyl1ablesintoChinesecharactersinthemarket.However,theimp1ementationofarobustrealtAnerecognitionsystemofunlimitcdvocabularyisvcrydifficu1t,anditisthcgreataimofourresearch.WehaveaTMS32O-C25signa1processingboardattachedtoacomputerofthM-PC/AT80386.Wehopcthatourspeechrecognit…  相似文献   

15.
胡航烨  王蔚 《应用声学》2023,42(1):76-83
情感语声合成技术对于人机交互具有重要的意义。面对儿童情感语声合成所需汉语语声数据资源缺乏以及模型训练时长较长等问题,该文提出利用迁移学习实现汉语儿童情感语声合成的方法。首先基于汉语语声数据库训练深度学习模型实现中文语声端到端合成模型,再使用高质量大样本的中文情感语料库完成情感语声合成模型,最后利用自行采样的小样本汉语儿童情感语料对模型进行迁移学习实现低资源的语声合成。客观实验结果中梅尔倒谱失真指标为4.91,主观听辨实验指标分别为3.61和4.17。通过实验对比表明,该文的方法在情感语声合成技术的应用上具有良好的性能表现,并且优于现有先进的低资源情感语声合成方法。  相似文献   

16.
针对低信噪比说话人识别中缺失数据特征方法鲁棒性下降的问题,提出了一种采用感知听觉场景分析的缺失数据特征提取方法。首先求取语音的缺失数据特征谱,并由语音的感知特性求出感知特性的语音含量。含噪语音经过感知特性的语音增强和对其语谱的二维增强后求解出语音的分布,联合感知特性语音含量和缺失强度参数提取出感知听觉因子。再结合缺失数据特征谱把特征的提取过程分解为不同听觉场景进行区分地分析和处理,以增强说话人识别系统的鲁棒性能。实验结果表明,在-10 dB到10 dB的低信噪比环境下,对于4种不同的噪声,提出的方法比5种对比方法的鲁棒性均有提高,平均识别率分别提高26.0%,19.6%,12.7%,4.6%和6.5%。论文提出的方法,是一种在时-频域中寻找语音鲁棒特征的方法,更适合于低信噪比环境下的说话人识别。   相似文献   

17.
In a variety of experiments and paradigms, researchers have attempted to determine whether or not speech perception is specialized by comparing perception of speech syllables to perception of nonspeech analogs. While nonspeech analogs appear optimal as comparisons to speech because they are acoustically similar without being recognized as speechlike, it is argued that the comparison they offer is confounded and uninterpretable. Two experiments are designed to show that, in auditory perception generally where acoustic signals are causal consequences of mechanical events, perceptual experiences are of the mechanical events themselves, not of the acoustic signal. This has two consequences. One is that there is a confounding in comparisons of speech with sine wave analogs that, whereas the one perceived as speech also has a definite causal source, the other, perceived as nonspeech, has an indeterminate or ambiguous source. A second is that response patterns in classification tasks such as those used in the literature comparing speech to nonspeech will reflect properties of the perceived sound-producing event; they will not provide a clear window on auditory system processes used to recover event properties. Experiment 3 is designed to show that perception of many acoustic-signal-producing events can appear to be special by the logic of speech-sine wave comparisons--even events that cannot plausibly be supposed to involve a specialization.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号