首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 154 毫秒
1.
基于主成分分析的汉语连续语音切分算法   总被引:1,自引:0,他引:1       下载免费PDF全文
张永锋  杨影  肖莹莹 《应用声学》2011,30(5):366-369
连续语音切分是汉语连续语音识别中的一项重要技术。本文将通常用于图像处理的主成分分析(PCA)方法引入汉语连续语音切分领域,目的是通过PCA,降低语音帧之间的频谱相关性。再利用相邻语音帧特征构成的三维子空间的大小,实现连续语音切分,取得了不错的切分效果。  相似文献   

2.
提出了利用偶数帧段输入隐马尔可夫模型(HMM)提高在噪声环境下汉语连续语音识别系统鲁棒性的方法,并提出了对于传统谱相减降噪技术的修改方法。实验结果表明,本文的方法能有效地提高噪声背景下汉语连续语音识别系统的性能。  相似文献   

3.
韩疆  尹宝林 《声学学报》2000,25(2):182-190
提出了基于帧特征、段特征联合建模的语音识别模型。该模型采用描述谱参数轨迹的段特征,在段尺度上实现了对语音信号帧间相关性的显式建模;采用段特征依赖的非平稳时间序列产生模型,实现了段特征与帧特征间的相关性建模,并在帧尺度上通过参数化的均值轨迹函数,实现了对语音信号帧间相关性的隐式建模。本文给出了基于帧特征、段特征联合统计距离优化的分段算法以及内嵌EM迭代的模型参数估计算法。对非特定人汉语孤立韵母以及多话者汉语基本音节的识别实验表明,该模型的识别性能优于标准HMM及趋势HMM。  相似文献   

4.
蒋斌  匡正  吴鸣  杨军 《声学学报》2012,37(6):659-666
实验研究了帧长对汉语音段反转言语可懂度的影响。实验结果表明,帧长在64 ms以下,汉语音段反转言语具有较高的可懂度;帧长在64~203 ms之间,可懂度随帧长的增加逐渐降低;帧长在203 ms以上,可懂度为0。在帧长8 ms时,汉语的声调失真导致可懂度下降。原始语音信号和音段反转言语的调制谱的分析表明,调制谱失真大小和可懂度密切相关。因此,用原始语音信号和音段反转言语的窄带包络间的归一化相关值可以衡量调制谱失真大小,基于语音的语言传输指数法计算的客观值和实验结果显著相关(r=0.876,p<0.01)。研究表明,语言可懂度与窄带包络有关,音段反转言语的可懂度和保留原始语音信号的窄带包络密切相关。  相似文献   

5.
噪声环境中的汉语浊语音检测   总被引:1,自引:0,他引:1  
为了在低信噪比和复杂噪声环境下检测汉语浊语音,根据浊语音谐波结构特性,提出了一种鲁棒的浊语音检测方法。通过改进的谱跟踪算法,得到能表征浊语音谐波特性的一簇谱线;从谱线簇中提取谐波特征作为汉语浊语音检测的依据。在不同信噪比和不同噪声环境下的浊语音检测对比实验中全面优于传统方法,在0 dB信噪比时正识率高于传统方法约30%。实验结果表明,该方法在低信噪比和非平稳复杂噪声环境下都具有较好的浊语音检测效果。  相似文献   

6.
基于连续高斯混合密度HMM的汉语全音节语音识别研究   总被引:5,自引:0,他引:5  
本文在大量语音分析实验的基础上,对HMM用于汉语全音节语音识别进行了较为深入的探讨,建立了一个连续高斯混合密度HMM的汉语全音节语音识别系统.该系统在训练算法上撇开了传统的Baum-Welch算法,代之以计算复杂度小、存储量小、迭代次数少且具有自动分割效应的分段K平均算法。对于HMM的模型单元的选择,单元的结构以及模型参数的选取,充分考虑了汉语语音的特点;并在语音特征上做了深入的实验分析工作,采用了符合人耳听觉特性的Mel-Scaled参数,用FFT倒谱代替了LPC倒谱,同时利用了语音的动态谱特征和能量特征。另外,本文还针对汉语声母的特点,独特地提出了变帧移分析策略。整个识别系统的首选正识率为91.1%.  相似文献   

7.
本文在分析了汉语单音节发音的音节结构的基础上,定义了基于声韵母类的语音识别单元,从声学角度确定了用于汉语全音节识别系统的声学单元,并研究了这些声学单元的检测一致性及基于这些单元的识别系统的鲁棒性。文中还对大量的发音人的声母类发音的长度作了统计,给出了基于本文给出的分割算法和本文定义的声母单元下的声母长度预分类方法。通过在非特定人全音节汉语语音识别系统上的应用表明,本文定义的语音识别单元具有很高的检测一致性,建立在其上的识别,系统也具有很高的鲁棒性;文中给出的预选方法在最好的情况下,可以减少一半以上的运算量,而预选精度几乎达到100%。  相似文献   

8.
首先介绍了帧同步混合小波包的分析方法。该方法结合了小波包时频窗口可变的特点和STFT的分帧处理形式。它既能够保证语音信号处理中帧长的要求,即可实时处理,义能获得对信号频域上的最佳分解,是一种类似FFT的小波包的快速算法。在此基础上,应用该方法模拟了听觉模型,并运用于语音增强。实验表明,即使在-5 dB低信噪比的条件下,也能获得良好的除噪效果和听觉效果。该方法还可运用于语音的编码、合成和识别等领域。  相似文献   

9.
汉语连续语音识别中语音处理和语言处理统合方法的研究   总被引:5,自引:1,他引:4  
提出了一种语音处理和语言处理按帧同步统合的汉语连续语音识别方法。该方法把基于 CFG语言模型和 Top Down型句法分析器的语言处理过程结合进基于有限状态自动机控制的 One Pass Viterbi语音识别算法中,实现了帧同步的语音语言处理的统合。为完成帧同步句法分析的单词预测和语音识别过程的结合,本文提出了一种类似于Earley法的 TopDown型句法分析方法以及 One Pass Viterbi算法中的有限状态自动机动态展开建立法. 60个音素单位和 8个声调单位的 HMM作为识别用基元模型被用于识别实验,识别结果表明,对于一个识别困难度(Perplexity)为27.3的任务(Task)的识别系统,利用本文提出的方法,10名话者发音的 1070句子的平均识别率达到 94.4%,比利用传统的基于单词确认(Word Spotting)以及从单词串(列)(lattice)进行句法分析的阶层性语音·语言统合方式的识别率提高约8%.  相似文献   

10.
汉语塞音选择性特征自动萃取的小波变换方法   总被引:1,自引:0,他引:1  
杜利民  侯自强 《声学学报》1996,21(6):872-878
本文提出了汉语语音导引特征的概念,讨论了语音导引特征在自动语音识别中用于导引匹配搜索的运用方式和重要作用;提出并设计了汉语塞音选择性特征自动萃取的小波变换方法和数字信号处理算法。本文方法和算法从声学信号处理和检测的角度,将汉语清辅音声波输入信号自动分为塞音子集BDG:{b,d,g}、塞音子集ZZHJGPTcCHQK:{z,zh,j,g,p,t,c,ch,q,k}和擦音集FsSHhX:{f,s,sh,x,h};对输入的合清辅音的音节,计算检测并输出汉语自动语音识别系统可以利用的清辅音类属标记b.d.g、STOP/BD和f.s.sh.x.h以及它们的音段起始时标;从声学信息计算检测的角度为汉语自动语音识别系统提供一种新的\  相似文献   

11.
单通道语音增强算法对汉语语音可懂度影响的研究   总被引:1,自引:0,他引:1  
杨琳  张建平  颜永红 《声学学报》2010,35(2):248-253
考察了当前常用的几种单通道语音增强算法对汉语语音可懂度的影响。受不同类型噪音干扰的语音经过5种单通道语音增强算法的处理后,播放给具有正常听力水平的被试进行听辩,考察增强后语音的可懂度。实验结果表明,语音增强算法并不能改进语音的可懂度水平;通过分析具体的错误原因,发现听辩错误主要来自于音素错误,与声调关系不大;而且,同英文的辨识结果相比,一些增强算法对于中、英文可懂度影响差异显著。   相似文献   

12.
邵健  赵庆卫  颜永红 《声学学报》2010,35(5):587-592
研究汉语自然口语识别中的建模单元选择问题。在HMM三状态模型中,声韵母单元与音素单元作为两种最流行的建模单元各有优劣。一方面从自然口语音变严重的问题出发,倾向采用粗粒度的声韵母单元以概括各种音变;另一方面从三状态结构可能无法有效描述复杂单元的问题出发,又倾向采用细粒度的音素单元。本文在实验语音学理论研究成果与声韵母时长分析实验结果的基础上,主张对扩展声韵母单元进行有选择的拆分,提出了基于鼻韵尾分离的声韵母拆分方法。实验结果表明本文的方法与扩展声韵母单元、音素单元相比,识别性能有了明显改善,其字错误率分别降低2.23%和9.45%。  相似文献   

13.
倪崇嘉  刘文举  徐波 《声学学报》2012,37(5):553-560
虽然汉语和英语的重音自动标注被广泛的研究,但是关于汉语和英语的重音自动标注之间对比的研究还鲜有报道。基于汉语韵律标注库ASCCD和英语韵律标注库Boston University Radio News Corpus,对汉语和英语的重音自动标注的异同进行对比,考察不同的特征在不同语言的语料库上的泛化性能。通过基于集成分类回归树的重音自动标注实验、特征分析及基于互信息的重音自动标注的声学对比,得到如下结论:在相同的条件下,汉语重音自动标注的正确率比英语重音自动标注的正确率要低;在重音自动标注中,词典语法相关特征比声学相关的特征更重要;不同的声学信息源在重音自动标注中所起的作用不同,时长相关的特征对汉语和英语重音自动标注都很重要;英语中大部分特征提供的互信息要比汉语相应的特征提供的互信息要高。  相似文献   

14.
Reports using a variety of psychophysical tasks indicate that pitch perception by hearing-impaired listeners may be abnormal, contributing to difficulties in understanding speech and enjoying music. Pitches of complex sounds may be weaker and more indistinct in the presence of cochlear damage, especially when frequency regions are affected that form the strongest basis for pitch perception in normal-hearing listeners. In this study, the strength of the complex pitch generated by iterated rippled noise was assessed in normal-hearing and hearing-impaired listeners. Pitch strength was measured for broadband noises with spectral ripples generated by iteratively delaying a copy of a given noise and adding it back into the original. Octave-band-pass versions of these noises also were evaluated to assess frequency dominance regions for rippled-noise pitch. Hearing-impaired listeners demonstrated consistently weaker pitches in response to the rippled noises relative to pitch strength in normal-hearing listeners. However, in most cases, the frequency regions of pitch dominance, i.e., strongest pitch, were similar to those observed in normal-hearing listeners. Except where there exists a substantial sensitivity loss, contributions from normal pitch dominance regions associated with the strongest pitches may not be directly related to impaired spectral processing. It is suggested that the reduced strength of rippled-noise pitch in listeners with hearing loss results from impaired frequency resolution and possibly an associated deficit in temporal processing.  相似文献   

15.
Speech intelligibility was investigated by varying the number of interfering talkers, level, and mean pitch differences between target and interfering speech, and the presence of tactile support. In a first experiment the speech-reception threshold (SRT) for sentences was measured for a male talker against a background of one to eight interfering male talkers or speech noise. Speech was presented diotically and vibro-tactile support was given by presenting the low-pass-filtered signal (0-200 Hz) to the index finger. The benefit in the SRT resulting from tactile support ranged from 0 to 2.4 dB and was largest for one or two interfering talkers. A second experiment focused on masking effects of one interfering talker. The interference was the target talker's own voice with an increased mean pitch by 2, 4, 8, or 12 semitones. Level differences between target and interfering speech ranged from -16 to +4 dB. Results from measurements of correctly perceived words in sentences show an intelligibility increase of up to 27% due to tactile support. Performance gradually improves with increasing pitch difference. Louder target speech generally helps perception, but results for level differences are considerably dependent on pitch differences. Differences in performance between noise and speech maskers and between speech maskers with various mean pitches are explained by the effect of informational masking.  相似文献   

16.
普通话孤立字四声的一种模式识别方法   总被引:4,自引:0,他引:4  
普通话孤立字的声调识别是普通话语音识别中的一项重要任务.本文提出一种新的模式识别算法进行普通话四声调的识别.在大量统计实验基础上,定义了四个参数做为基音频率轨迹的描述.并且,在假设其服从高维正态分布(统计实验表明,这一假设是合理的)的基础上,根据最小错误概率准则推导出参数矢量与每一声调类型的距离公式,实现了统计意义上的最佳识别效果.对于非特定人的四声识别实验表明,这一算法取得了十分满意的结果。  相似文献   

17.
音高和时长在普通话轻声知觉中的作用   总被引:4,自引:2,他引:2  
王韫佳 《声学学报》2004,29(5):453-461
目的在于探讨音高和时长两种因素在普通话轻声知觉中的作用方式以及比较两种因素所起作用的大小。使用了心理-声学的实验方法,所用刺激为音高和时长得到控制的15组合成的双音节语音词,要求33名普通话母语者对所有刺激的重音类型进行“重重”或“重轻”的强迫性选择判断。结果表明: (1)音高和时长对于普通话轻声的知觉均有显著作用, (2)音高对于轻声知觉的作用明显大于时长, (3)音高曲线的起点、高音点和调型曲拱均对轻声的知觉起作用。这些实验结果与自然语音中轻声的声学特征基本上是互相对应的,但也存在一定程度的差别。这些差别说明,自然语音中轻声的某些声学特征只是羡余特征而非音系特征。  相似文献   

18.
I.IntroductionResearchesonChinesesynthesisdisclosethatonlywhenboththesegmentalandsupraseg-melltalfeaturesofthesyntheticspeecharesimilartothoseofthellaturalone,thesyntheticspeechwillsoundintelligibleandnatural[1].Amongekistingsynthetictechniques,theapproachbasedonacousticparametersca-nadustboththesegmentalandsuprasegmentalfeaturesofsyntheticunitsfiekiblyandcanbeconsideredasthemostreasonablesynthetictechniqueintheory.However,theparameterbasedsynthesizerisoverAfependentonthedevelopmentsofparamet…  相似文献   

19.
超音段特征间的相互作用   总被引:2,自引:1,他引:1  
张家騄 《声学学报》1993,18(4):263-271
在五种不同的发音方式(大声、正常、小声、加快和放慢)下,研究说话声级、说话速度和言语基频FO之间的相互作用。发音人一男一女,言语材料为四个元音/a,i,u,u/,在不同声调下嵌入负载句。结果表明:1.说话声级提高导致基频升高、音域扩大,说话速度变化对基频影响较小,只是速度加快音域下限略有上升;2.单句的起始基频主要决定于说话声级;3.单句的基频F0下降率既与说话速度又与说话声级都有关系;4.句尾基频跟说话方式关系不大。  相似文献   

20.
初敏  吕士楠 《声学学报》1996,21(S1):639-647
以基音同步叠加技术为基础,以汉语单音节为合成单元,有一包含词调模式、重音模式和句调模式的韵律规则库的汉语文语转换系统,可合成出高清晰度和高自然度的汉语语音。研究表明,影响汉语合成语音的自然度的主要因素是音高和音强随时间的变化、各音节的音长分布以及音节间的协同发音,其中以音高和音长的影响最为显著。时域基音同步叠加技术提供了一种在时域改变语音波形的音高和音长的方法,从而使在用波形拼接法合成汉语时,进行词一级和句一级的韵律调节成为可能。对新闻广播语言的声学特征的分析,为建立汉语合成的韵律调节规则提供了理论依据。本文介绍新的汉语文语转换系统的结构及流程、对广播语言韵律特征的初步研究结果、汉语合成规则及合成系统语音质量的评测结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号