首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
杨占磊  刘文举  晁浩 《声学学报》2012,37(2):209-217
语音帧在声学特征空间中的位置信息可以辅助解码器对潜在路径进行筛选。传统的语音识别系统缺乏利用这种位置信息。针对这种不足,本文提出一种引导概率模型,用于描述语音帧属于声学特征空间不同局部的概率,并将其用于识别。使用引导概率后,解码器更强调对声学特征空间中最有希望的局部进行搜索,保留并扩展通过此局部空间的路径,同时弱化不经过此局部空间的路径。实验结果显示,融合引导概率的解码算法在不显著增加解码复杂度的情形下,使汉字相对错误率下降10.95%。结果分析表明,融合了语音帧声学位置信息的解码方法能够更有效地鉴别潜在路径,从而降低误识率。   相似文献   

2.
深浅层特征及模型融合的说话人识别   总被引:4,自引:0,他引:4       下载免费PDF全文
为了进一步提高说话人识别系统的性能,提出基于深、浅层特征融合及基于I-Vector的模型融合的说话人识别。基于深、浅层特征融合的方法充分考虑不同层级特征之间的互补性,通过深、浅层特征的融合,更加全面地描述说话人信息;基于I-Vector模型融合的方法融合不同说话人识别系统提取的I-Vector特征后进行距离计算,在系统的整体结构上综合了不同说话人识别系统的优势。通过利用CASIA南北方言语料库进行测试,以等错误率为衡量指标,相比基线系统,基于深、浅层特征融合的说话人识别其等错误率相对下降了54.8%,基于I-Vector的模型融合的方法其等错误率相对下降了69.5%。实验结果表明,深、浅层特征及模型融合的方法是有效的。   相似文献   

3.
汉语耳语音孤立字识别研究   总被引:6,自引:0,他引:6       下载免费PDF全文
杨莉莉  林玮  徐柏龄 《应用声学》2006,25(3):187-192
耳语音识别有着广泛的应用前景,是一个全新的课题.但是由于耳语音本身的特点,如声级低、没有基频等,给耳语音识别研究带来了困难.本文根据耳语音信号发音模型,结合耳语音的声学特性,建立了一个汉语耳语音孤立字识别系统.由于耳语音信噪比低,必须对其进行语音增强处理,同时在识别系统中应用声调信息提高了识别性能.实验结果说明了MFCC结合幅值包络可作为汉语耳语音自动识别的特征参数,在小字库内用HMM模型识别得出的识别率为90.4%.  相似文献   

4.
本文在分析了汉语单音节发音的音节结构的基础上,定义了基于声韵母类的语音识别单元,从声学角度确定了用于汉语全音节识别系统的声学单元,并研究了这些声学单元的检测一致性及基于这些单元的识别系统的鲁棒性。文中还对大量的发音人的声母类发音的长度作了统计,给出了基于本文给出的分割算法和本文定义的声母单元下的声母长度预分类方法。通过在非特定人全音节汉语语音识别系统上的应用表明,本文定义的语音识别单元具有很高的检测一致性,建立在其上的识别,系统也具有很高的鲁棒性;文中给出的预选方法在最好的情况下,可以减少一半以上的运算量,而预选精度几乎达到100%。  相似文献   

5.
提出了一种基于对识别器识别错误的统计分析建立音节混淆字典,并应用该音节混淆字典作为识别器的先验知识来校正结果的识别方法。这种近似的音节混淆字典可以分与语境无关和相关两种情况讨论,作为一种先验知识,它综合地刻画了说话人的发音特征、识别器的识别特征以及二者之间的相对关系。实验中,我们应用语境无关/相关的音节混淆字典于识别带上海口音的普通话识别器,使其音节误识率分别下降15%及20%。在此基础上,本论文结合常规的声学模型参数重估自适应MAP(最大后验概率)算法进一步研究了这种方法应用于语音识别系统的实际效果。结果证明,二者互为补充,更大地提高了识别器的精度。  相似文献   

6.
一种改进的DNN-HMM的语音识别方法*   总被引:2,自引:1,他引:1       下载免费PDF全文
针对深度神经网络与隐马尔可夫模型(DNN-HMM)结合的声学模型在语音识别过程中建模能力有限等问题,提出了一种改进的DNN-HMM模型语音识别算法。首先根据深度置信网络(DBN)结合深度玻尔兹曼机(DBM),建立深度神经网络声学模型,然后提取梅尔频率倒谱系数(MFCC)和对数域的Mel滤波器组系数(Fbank)作为声学特征参数,通过TIMIT语音数据集进行实验。实验结果表明:结合了DBM的DNN-HMM模型相比DNN-HMM模型更具优势,其中,使用MFCC声学特征在词错误率与句错误率方面分别下降了1.26%和0.20%。此外,使用默认滤波器组的Fbank特征在词错误率与句错误率方面分别下降了0.48%和0.82%,并且适量增加滤波器组可以降低错误率。总之,研究取得句错误率与词错误率分别降低到21.06%和3.12%的好成绩。  相似文献   

7.
基于随机轨迹模型的汉语连续语音识别方法研究   总被引:1,自引:0,他引:1  
本文在指出隐马尔可夫模型(HMM)不合理假设的基础上,介绍了随机轨迹模型(STM)的理论机制及优越性。随机轨迹模型将语音基元的声学观察表示为参数空间中轨迹的聚类,并将轨迹建模为状态随机序列概率密度函数的混合,该模型可以克服HMM的不合理假设,在理论上更合理。根据STM的特点及汉语语音特色,本文对汉语连续语音识别基元的选取进行了讨论,提出了音素类单元作为识别系统的识别基元。基于STM的汉语连续语音识别的实验结果证明了STM的有效性和音素类单元的一致性。  相似文献   

8.
景春进  陈东东  周琳琦 《应用声学》2014,22(8):2571-2573
针对舰艇指挥训练系统的特点,提出了一种利用语音识别技术提高其训练效率的方法;首先分析了舰艇指挥指令的语言特点,然后研究了基于Sphinx平台的汉语连续语音识别的相关问题,包括声学模型的训练、语言模型的训练及语音识别引擎等;最后设计并实现了一个非特定人,中等专用词汇量的连续汉语语音识别系统;实验采用了一定数量的数字和专用词汇进行验证,结果表明,经过声学模型训练后,该系统的识别率有较大提高;该方法对提高舰艇指挥训练系统的自动化水平具有一定的指导意义。  相似文献   

9.
汉语连续语音识别中一种新的音节间相关识别单元   总被引:1,自引:0,他引:1  
考虑汉语连续语音中的协同发音现象对语音识别性能的提高是非常重要的。针对汉语语音的特点,提出了一种新的在汉语连续语音识别中考虑音节间协同发音现象,对声学模型进行细化的识别单元。然后基于语音学知识对音节间上下文影响进行分类,实现单元间状态参数的共享,降低了模型的复杂程度,保证了模型的可训练度。这种方法和传统方法的最大不同在于:这种方法完全利用语音学知识进行聚类,而传统方法采用数据驱动的聚类方式。识别实验表明,基于语音学分类的音节间相关识别单元对识别性能有明显的改善,系统的首选误识率降低了17%。  相似文献   

10.
语音识别赋予了计算机能够识别出语音内容的功能,是人机交互技术领域的重要研究内容。随着计算机技术的发展,语音识别已经得到了成熟的发展。但是关于方言的语音识别还有很大的发展空间。中国是一个幅员辽阔、人口众多的国家,因此方言种类繁多,其中有3000多万人交流使用的重庆方言就是其中之一。采集了重庆方言的部分词语的文本文件和对应的语音文件建立语料库,根据重庆方言的发音特点,选取重庆方言的声韵母作为声学建模基元,选取隐马尔可夫模型(Hidden Markov Model, HMM)为声学模型设计了一个基于HMM的重庆方言语音识别系统。在训练过程利用语料库中训练集语料对声学模型进行训练,形成HMM模型库;在识别过程利用语料库中的测试集语料进行识别测试。实验结果表明,该系统能够实现重庆方言的语音识别,并且识别的正确率为100%。  相似文献   

11.
为了提高感知线性预测系数(PLP)在噪声环境下的识别性能,使用子带能量偏差减的方法,提出了一种基于子带能量规整的感知线性预测系数(SPNPLP)。PLP有效地集中了语音中的有用信息,在安静环境下自动语音识别系统使用PLP可以取得良好的识别率;但是在噪声环境中其识别性能急剧下降。通过使用能量偏差减的方法对PLP的子带能量进行规整,抑制背景噪声激励,提出了SPNPLP,增强自动语音识别系统在噪声环境下的鲁棒性。在一个语法大小为501的孤立词识别任务和一个大词表连续语音识别任务上做了测试,SPNPLP在这两个任务上,与PLP相比,汉字识别精度分别绝对提升了11.26%和9.2%。实验结果表明SPNPLP比PLP具有更好的噪声鲁棒性。   相似文献   

12.
单通道语音增强算法对汉语语音可懂度影响的研究   总被引:1,自引:0,他引:1  
杨琳  张建平  颜永红 《声学学报》2010,35(2):248-253
考察了当前常用的几种单通道语音增强算法对汉语语音可懂度的影响。受不同类型噪音干扰的语音经过5种单通道语音增强算法的处理后,播放给具有正常听力水平的被试进行听辩,考察增强后语音的可懂度。实验结果表明,语音增强算法并不能改进语音的可懂度水平;通过分析具体的错误原因,发现听辩错误主要来自于音素错误,与声调关系不大;而且,同英文的辨识结果相比,一些增强算法对于中、英文可懂度影响差异显著。   相似文献   

13.
汉语综合资料库的设计   总被引:1,自引:0,他引:1       下载免费PDF全文
语言是人类最重要的交际工具,随着现代信息技术的发展,语言也是人与机器之间交际的有效工具.近年来世界各国纷纷建立本国的言语资料库作为言语科学研究和言语技术开发的基础.汉语综合资料库的语音材料有:汉语全部有调音节、数字串、单词、韵律特征材料,以及语言清晰度试验用音节表、词表、句表和有代表性的短文等.汉语综合资料库在语言学和语音学特征以及声学特征方面充分体现汉语的基本特点.首先要解决语料选取问题,考虑各种语言单位的使用频率,不仅要包括全部高频词,也要反映较全面的语音现象.数据库在结构上是开放的模块式的,同时配有灵活的数据库管理系统.  相似文献   

14.
倪崇嘉  刘文举  徐波 《声学学报》2012,37(5):553-560
虽然汉语和英语的重音自动标注被广泛的研究,但是关于汉语和英语的重音自动标注之间对比的研究还鲜有报道。基于汉语韵律标注库ASCCD和英语韵律标注库Boston University Radio News Corpus,对汉语和英语的重音自动标注的异同进行对比,考察不同的特征在不同语言的语料库上的泛化性能。通过基于集成分类回归树的重音自动标注实验、特征分析及基于互信息的重音自动标注的声学对比,得到如下结论:在相同的条件下,汉语重音自动标注的正确率比英语重音自动标注的正确率要低;在重音自动标注中,词典语法相关特征比声学相关的特征更重要;不同的声学信息源在重音自动标注中所起的作用不同,时长相关的特征对汉语和英语重音自动标注都很重要;英语中大部分特征提供的互信息要比汉语相应的特征提供的互信息要高。   相似文献   

15.
The distinctive features, which axe one of the important research subjects in Phonetics and Phonology and in speech technology also, are the ultimate units of speech. Firstly a phoneme system of the standard Chinese-Putonghua was determined based on the results of cluster analysis of perceptual confusion of speech sounds of Putonghua. Then according to the principle of choice between the two opposites proposed by Jakobson, Fant and Halle, considering the characteristics of Putonghua the distinctive feature values for Initials, Finals and Tones were determined in this paper. And the features have been formulated at both acoustic level and genetic level. The distinctive feature trees of Chinese initials and finals were drawn in addition to the feature tables, in order to understand the distinctive features for individual phoneme easily.  相似文献   

16.
利用线谱起伏实现目标测距   总被引:2,自引:0,他引:2       下载免费PDF全文
高大治  翟林  王好忠  高博  王宁 《声学学报》2017,42(6):669-676
常见水中目标辐射噪声的线谱会随目标运动而出现强弱起伏。不同号简正波之间的干涉是目标声强随距离起伏的主要原因,利用简正波水平波数差和波导不变量之间的关系,推导了不同线谱随距离变化起伏的理论关系式。基于此关系式,提出利用两条或多条线谱声强起伏进行声源测距的方法。针对两条线谱起伏测距方法存在的旁瓣问题,解释其形成原因,并提出用多条线谱声强起伏抑制旁瓣。数值仿真验证了方法的可行性,利用多条线谱声强起伏测距的方法可有效抑制旁瓣。海试数据分析表明,当连续谱部分非常微弱无法有效测距时,利用多条线谱声强起伏测距的方法仍能稳定的估计渔船目标距离,估计距离的平均相对误差为12%。   相似文献   

17.
从调类个性、句中位置和重音级别3个层面的语音分析,考察普通话4个声调在不同语调条件下的音高实现。目标词被置于3种不同的焦点位置(即句重音最强的位置)和两种不同的非焦点位置(即非句重音位置)上,对目标词的调域以及目标声调的高音点和低音点进行了观察分析。实验结果表明,(1)在焦点条件以及非焦点条件下,阳平的音高位于调域的中低音区,去声低音点的理论调值尽管低于阳平低音点,但去声低音点在音高实现上往往接近阳平低音点甚至会高于阳平低音点;(2)焦点在句首位置表现为调域向上下两个方向扩展,在句末位置则表现为调域整体上抬,但不同声调的高音点并不都与调域上限同比例变化,不同声调低音点的变化也并不都与调域下限同比例变化;(3)重音后音节的音高对焦点音节的依赖关系受音步组合关系的制约,焦点和焦点后音节若在同一音步内,焦点后音节的音高与焦点音节的音高关系类似轻声音节与其前接非轻声音节的音高关系,焦点和焦点后音节之间如果存在音步边界,焦点后音节的音高表现出一定的独立性。这些结果说明了语句中声调音高实现的复杂性,一个具有较好预测性的汉语普通话语调模型的建立需要包括焦点结构、韵律结构、协同发音、调类个性等不同层面信息的诸多细节化规则。   相似文献   

18.
Muscle tension dysphonia (MTD) is a hyperfunctional voice disorder commonly seen in professional voice users. To date, published acoustic studies of this disorder have mainly focused on nontonal language speakers, and no publication has documented its impact on lexical tone characteristics. In this study, we examined whether and how this voice disorder affected acoustically and perceptually the characteristics of tones in Vietnamese teachers. Voice data were obtained from 42 Vietnamese female primary school teachers diagnosed with MTD and 30 vocally healthy teachers. Tonal data were analyzed using Computerized Speech Lab (CSL-4300B) and Speech Analyzer. Parameters analyzed included the two most important acoustic cues in Vietnamese tones, that is, tonal fundamental frequency (F0) and laryngealization. Tonal F0 was assessed using a factorial analysis of variance with group and career durations as independent variables. Tonal samples were also perceptually assessed by a panel of native speakers of the same dialect. The results showed that MTD lowered tonal F0 in high tones and tones with extensive fundamental frequency variation. There was also a significant main effect for career duration; in MTD group, tonal F0 was lower in teachers with longer career duration. The teachers with MTD showed different patterns of laryngealization compared with the control group. Tone perception was poorer for tones with extensive fundamental frequency variation and without a typical phonation type. The results in this group of teachers supported our hypothesis that MTD impairs lexical tone phonation.  相似文献   

19.
An automatic detection and evaluation method of the Erhua (also called r-retroflexion or retroflex suffixation) in the Putonghua proficiency test (PSC) is proposed. Based on the framework of the computer assisted pronunciation evaluation system, the present authors made an in-depth analysis of phonologic rules and acoustic characteristics of the Erhua, and solved the detection and evaluation of the Erhua as a typical classification problem. Then more rep- resentative acoustic features were selected and a variety of different classification algorithms were used. The results showed that the boosting classification and regression tree (Boosting CART) could make full use of the characteristics of the Erhua, and the classification accuracy was 92.41%. Based on further analysis of the acoustic feature group, it was found that formant, pronunciation confidence and duration were the most important clues of the Erhua, and these clues could effectively realize the automatic detection and evaluation of the Erhua.  相似文献   

20.
张珑  李海峰  马琳  王建华 《声学学报》2014,39(5):639-646
提出一种汉语普通话水平测试中儿化音的自动检测与评价方法。在现有计算机辅助发音评测系统的框架下,深入分析儿化音的发音规律和声学特性,将儿化音的检测与评价转化成典型的分类问题进行处理。经过挑选多个有代表性的声学特征,并尝试多种不同的分类算法,结果表明,集成分类回归树(Boosting CART)强化分类模型,能充分利用儿化音的各种声学特征,分类正确率达到92.41%。通过对声学特征组的进一步分析,发现共振峰、发音置信度、时长是表达儿化音的最重要线索,利用这些线索能有效地实现对儿化音的自动检测与评价。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号