首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于决策树的汉语三音子模型   总被引:8,自引:2,他引:6  
基于决策树理论的上下文相关声学模型在英语语音识别中已经得到了比较深入的研究和应用,但在汉语语音识别中的应用则研究的比较少。本文基于决策树理论建立了汉语语境相关模型-三音于模型,讨论了决策构建模所要解决的几个重要问题:(1)基本建模单元集的选择,(2)音子类别集的设计,(3)评估函数的选择,(4)停止准则的选择,(5)决策树的建立和三音子模型的生成,本文着重分析了两种不同建模单元的性能:对音子类别集的设计提出了一些一般性的准则,并对我们设计的类别集进行了统计分析;分析了三音子模型在语音库的覆盖程度。实验结果表明,基于决策树的三音子声学模型建立的识别系统与双音子声学模型系统比较,误识率下降了24.7%。  相似文献   

2.
汉语音节音联感知特性研究   总被引:1,自引:0,他引:1  
汉语音联可分为:闭音联、音节音联、节奏音联和停顿音联等四级,其中团音朕最强、音节音联次之,另外两种音联较弱。在以音节为基本单元的汉语合成系统中,闭音联已保留在语音库中,因此需要着重考虑的是音节音联。本文以服务于汉语文语转换系统为目的,通过两个阶段的感知实验,研究了汉语音节音联在听觉感知中的作用。得到以下结论:①从总体上看,听音人对汉语双音节词中音高模式的变化的感知比较灵敏,而对音节间共振峰过波段的感知不灵敏,共振峰过波段对合成语音的自然度的影响不显著。②有语音学知识背景的专家或专业人员在判别合成语音的自然度时,比普通听音人更注意音节间的共振峰过渡。但即使是专家,也不容易判别在合成语音中音节间是否包含了共振蜂的平滑过渡。③双音节调的语音结构对音节间共振峰过渡的感知有影响。双音节词的声调组合对它也有一定影响。  相似文献   

3.
汉语语音资料库的语音学标记及人工切分   总被引:2,自引:0,他引:2  
介绍了汉语语音综合资料库的一个子库:CAS-SYL。该数据库包括汉语全部有调音节1267个,共计10个发音人;全部语音数据由人工完成音段切分及语音学标注。针对汉语音节的声韵结构,语音学标注水平被定位在半音节层次上.语音学标注符号系统采用了计算机可读的音标符号系统一汉语SAMPA-X(extendedSAMPhoneticAlphabet).还介绍了语音学标注策略,音段定位原则,基于语音波形的声门关闭时刻:GCI(GlottalClosedInstant)的声学线索。同时对声韵间的协同发音的声学体现进行了总结。最后对人工切分带来的非稳定性进行了分析.  相似文献   

4.
汉语听觉视觉双模态数据库CAVSR1.0   总被引:8,自引:0,他引:8  
听觉视觉双模态语音识别在国际上已经逐渐成为当前语音识别的热点之一,汉语的双模态识别研究也已开始启动。然而,由于视觉信息获取及处理难度极大,目前的双模态语音数据库的建设尚显薄弱,汉语方面更是空白。鉴于此,我们在进行听觉视觉双模态语音识别关键技术研究的同时,在分析国外同类数据库的结构的基础上,结合汉语语音的特点,建立了汉语语音的第一个双模态数据库CAVSR1.0。它具有如下特点:采用的语料涵盖所有声韵母,其规模(总数据量、音节量)超出目前国际上同类数据库;语料分布符合汉语声韵母的实际分布概率,因此其反映的规律具有代表性;捆绑了自动音节分割程序及脸部主要特征标定程序,使数据库具有很强的可扩展性。  相似文献   

5.
汉语连续语音识别中一种新的音节间相关识别单元   总被引:1,自引:0,他引:1  
考虑汉语连续语音中的协同发音现象对语音识别性能的提高是非常重要的。针对汉语语音的特点,提出了一种新的在汉语连续语音识别中考虑音节间协同发音现象,对声学模型进行细化的识别单元。然后基于语音学知识对音节间上下文影响进行分类,实现单元间状态参数的共享,降低了模型的复杂程度,保证了模型的可训练度。这种方法和传统方法的最大不同在于:这种方法完全利用语音学知识进行聚类,而传统方法采用数据驱动的聚类方式。识别实验表明,基于语音学分类的音节间相关识别单元对识别性能有明显的改善,系统的首选误识率降低了17%。  相似文献   

6.
基于ARMA模型的汉语讲话者识别   总被引:3,自引:0,他引:3  
实现了一个仅用鼻音声母且与文本无关的汉语讲话者识别系统,根据讲话者在讲话时鼻腔相对固定、发鼻音时咽腔稳定,以及汉语鼻音声母(只有m-和n-两种)少(全部音节分别只有53和48个)的特点,使用极零(ARMA)模型获得所有汉语鼻声母音节的极点和零点系数的谱参数。系统在对20个讲话者识别时,其性能为:各个人所有单个声母测试时,总正识率为87.92%;分别随机地选用各人的人3、4、5个声母平均后测试时,则平均正识率可达91.67%、95.00%、96.67%、99.97%。  相似文献   

7.
汉语孤立字全音节实时识别系统   总被引:1,自引:0,他引:1  
本文在大量语音实验的基础上,对汉语语音识别方法进行了较为深入的探讨,并以IBMPC/AT配以自行研制开发的TMS320C25-E型高速信号处理板为硬件基础,建立了一个特定人汉语普通话全音节实时识别系统.该系统针对汉语普通话的语音特点,采用了分层识别策略.整个系统响应时间小于0.2秒,用4遍1240个全音节语音对系统进行的严格测试表明:系统四声识别的平均正确率为99%左右,音节识别前5个候选的正确识别率分别为82%,91%,94%,96%,97%;同时,本文根据这一测试结果建立了相应的声韵母混淆矩阵和基于Shepard方法的相似度集群分析树图,并对照汉语语音合成清晰度测试结果及汉语语音知觉结构的集群分析结果,对本系统各部分进行了较为深入的分析,提出了相应的改进措施.  相似文献   

8.
本文在分析了汉语单音节发音的音节结构的基础上,定义了基于声韵母类的语音识别单元,从声学角度确定了用于汉语全音节识别系统的声学单元,并研究了这些声学单元的检测一致性及基于这些单元的识别系统的鲁棒性。文中还对大量的发音人的声母类发音的长度作了统计,给出了基于本文给出的分割算法和本文定义的声母单元下的声母长度预分类方法。通过在非特定人全音节汉语语音识别系统上的应用表明,本文定义的语音识别单元具有很高的检测一致性,建立在其上的识别,系统也具有很高的鲁棒性;文中给出的预选方法在最好的情况下,可以减少一半以上的运算量,而预选精度几乎达到100%。  相似文献   

9.
汉语综合资料库的设计   总被引:1,自引:0,他引:1       下载免费PDF全文
语言是人类最重要的交际工具,随着现代信息技术的发展,语言也是人与机器之间交际的有效工具.近年来世界各国纷纷建立本国的言语资料库作为言语科学研究和言语技术开发的基础.汉语综合资料库的语音材料有:汉语全部有调音节、数字串、单词、韵律特征材料,以及语言清晰度试验用音节表、词表、句表和有代表性的短文等.汉语综合资料库在语言学和语音学特征以及声学特征方面充分体现汉语的基本特点.首先要解决语料选取问题,考虑各种语言单位的使用频率,不仅要包括全部高频词,也要反映较全面的语音现象.数据库在结构上是开放的模块式的,同时配有灵活的数据库管理系统.  相似文献   

10.
基于连续高斯混合密度HMM的汉语全音节语音识别研究   总被引:5,自引:0,他引:5  
本文在大量语音分析实验的基础上,对HMM用于汉语全音节语音识别进行了较为深入的探讨,建立了一个连续高斯混合密度HMM的汉语全音节语音识别系统.该系统在训练算法上撇开了传统的Baum-Welch算法,代之以计算复杂度小、存储量小、迭代次数少且具有自动分割效应的分段K平均算法。对于HMM的模型单元的选择,单元的结构以及模型参数的选取,充分考虑了汉语语音的特点;并在语音特征上做了深入的实验分析工作,采用了符合人耳听觉特性的Mel-Scaled参数,用FFT倒谱代替了LPC倒谱,同时利用了语音的动态谱特征和能量特征。另外,本文还针对汉语声母的特点,独特地提出了变帧移分析策略。整个识别系统的首选正识率为91.1%.  相似文献   

11.
普通话三合元音音节最小时间感知阈及其声学特性   总被引:1,自引:0,他引:1       下载免费PDF全文
祖漪清 《应用声学》1994,12(2):27-34
本研究的实验材料取自中国社会科学院语言研究所语音数据库.库中存有15个男青的语音材料,共有15×15=225个三合元音音节.本研究的主要目的是从普通话三合元音入手,在对15个说话人的语音材料统计的基础上,通过对最小时间感知阈Tlim的测量与研究,从声学和感知的角度,给出三合元音必不可少的信息,指出多余信息.实验结果表明,TIim内的共振峰变化情况可分为两类.一是动态特性,它的表现是:(a)△F1>90%,△F2约50%;(b)Tlim内至少包括F1,F3两个拐点中的一个;(C)Tlim内包括F2变化最剧烈的部分.这四点对四个三合元音是一致的.第二类是边界条件,Tlim受到位置和大小两方面的限制,证明其边界共振峰频率十分重要.  相似文献   

12.
汉语塞音选择性特征自动萃取的小波变换方法   总被引:1,自引:0,他引:1  
本文提出了汉语语音导引特征的概念,讨论了语音导引特征在自动语音识别中用于导引匹配搜索的运用方式和重要作用;提出并设计了汉语塞音选择性特征自动萃取的小波变换方法和数字信号处理算法。本文方法和算法从声学信号处理和检测的角度,将汉语清辅音声波输入信号自动分为塞音子集BDG:{b,d,g}、塞音子集ZZHJGPTcCHQK:{z,zh,j,g,p,t,c,ch,q,k}和擦音集FsSHhX:{f,s,sh,x,h};对输入的合清辅音的音节,计算检测并输出汉语自动语音识别系统可以利用的清辅音类属标记b.d.g、STOP/BD和f.s.sh.x.h以及它们的音段起始时标;从声学信息计算检测的角度为汉语自动语音识别系统提供一种新的“从粗到细”的辅助匹配结构。算法可用性模拟实验采用实际语音的数据库数据,以手工标注信息作为自动检测分类正确与否的对比标准。对1267个汉语全音节中,总数913个待分类清辅音的初步分类结果表明:正确分类率分别为b.d.g:96.1%,STOP/BD:95.1%和f.s.sh.x.h:89.0%,总体平均正确分类率为93.6%。  相似文献   

13.
本项研究从实际语音材料出发,运用曲线拟合和矢量量化的方法,对汉语双音节调位的模型进行了系统地研究。研究结果表明;(1)利用曲线拟合和矢量量化技术对汉语双字词声调组合进行模式归类是一种可行和有效的方法。(2)虽然在部分声调组合中不同样品间的离散比较小,但大部分双音节词的声调组合模式可以分为几个子类,因此用一个总体平均的统计模式是不够的.(3)音高曲线的差异明显表现为声调高音点的不同,它是与双字词的音节重音模式相关联的。  相似文献   

14.
中国科学院声学研究所建立了一个汉语普通话语音数据库,这个语音数据库由声母、韵母、1282个单音节、几百个双音词和三音词、语音试验句、短文及数字0—9等构成。该语音数据库的发音人有六位(三男三女),他们是广播学院的教师和职业播音员,讲标准的汉语普通话。语音材料录制在高质量的磁带上,其中有一部分已数字化。已有许多汉语语音研究部门使用该语音数据库。  相似文献   

15.
基于随机轨迹模型的汉语连续语音识别方法研究   总被引:1,自引:0,他引:1  
本文在指出隐马尔可夫模型(HMM)不合理假设的基础上,介绍了随机轨迹模型(STM)的理论机制及优越性。随机轨迹模型将语音基元的声学观察表示为参数空间中轨迹的聚类,并将轨迹建模为状态随机序列概率密度函数的混合,该模型可以克服HMM的不合理假设,在理论上更合理。根据STM的特点及汉语语音特色,本文对汉语连续语音识别基元的选取进行了讨论,提出了音素类单元作为识别系统的识别基元。基于STM的汉语连续语音识别的实验结果证明了STM的有效性和音素类单元的一致性。  相似文献   

16.
指出汉语单字语音存在一种可截尾特性,并且得到与之相关的三个结论(称为尾音可切除原则):(1)如果适当切除单字部分青尾特征,识别率不会明显下降,甚至有所提高.(2)切尾后识别时间明显缩短,分析和实验结果表明:若采用动态时间规整算法(DTW),识别时间与特征矢量长度的平方成正比关系.(3)实验指出,音尾特征的截除极限为特征矢量总长度的1/3.根据上述原则,从假设一检验的认知理论出发,提出一种汉语连接词的识别算法,并在DTW模型上得以实现.实验测试集包括200个特定人发音样本,其中2字词162个,3字词22个,4字词16个,正识率为91%.该算法对待识词的字数没有限制,井且随待识字数的增加,识别时间只作线性增长.  相似文献   

17.
基于熵函数的耳语音声韵分割法   总被引:11,自引:3,他引:8  
耳语音声韵分割是耳语音识别和转换的前期工作。由于耳语发音不同于正常音,一般用于正常音的声韵分割法对耳语音不再适用。通过分析耳语音的发音及声学特点,利用宽带语谱图的声韵变化规律,提出了适用于耳语音的信息熵端点检测法,以及相对熵、音长和谱重心相结合的声韵分割法。并对两组信噪比为2-10 dB的380个汉语单音节耳语音进行声韵分割,女声的正确率为87.9%,男声的正确率为90.3%,高于频域法、聚类法和谱平坦度声韵分割法。实验表明,相对熵法可做为耳语音识别和转换的预处理,它改善了汉语耳语音转换为正常音的音质。  相似文献   

18.
汉语连续语音识别中语音处理和语言处理统合方法的研究   总被引:5,自引:1,他引:4  
提出了一种语音处理和语言处理按帧同步统合的汉语连续语音识别方法。该方法把基于 CFG语言模型和 Top Down型句法分析器的语言处理过程结合进基于有限状态自动机控制的 One Pass Viterbi语音识别算法中,实现了帧同步的语音语言处理的统合。为完成帧同步句法分析的单词预测和语音识别过程的结合,本文提出了一种类似于Earley法的 TopDown型句法分析方法以及 One Pass Viterbi算法中的有限状态自动机动态展开建立法. 60个音素单位和 8个声调单位的 HMM作为识别用基元模型被用于识别实验,识别结果表明,对于一个识别困难度(Perplexity)为27.3的任务(Task)的识别系统,利用本文提出的方法,10名话者发音的 1070句子的平均识别率达到 94.4%,比利用传统的基于单词确认(Word Spotting)以及从单词串(列)(lattice)进行句法分析的阶层性语音·语言统合方式的识别率提高约8%.  相似文献   

19.
为进一步深入研究汉语韵律特征在时间维上的表现,特别录制了一个语音资料库。发音人共10名(5男5女),试验材料包括3个不同语法结构和逻辑结构的句子。发音人以3种不同的语速自然朗读,相隔几周之后重复发音,总共3次。采用语音分析专用软件SFS(Speech File System)进行时间-频率分析,试验结果表明:(1)语速变化时,句子重音和句调保持不变,(2)语速加快时,尾部成分的相对时长加大,(3)语速加快时音节调型可发生很大变化,(4)停顿不但可用于表现句法结构,而是在语速变化时起着时长上的调节作用,(5)在语速变化时,语音中有些音段(多数元音)是弹性较大的,容易被压缩或伸展,有些音段是比较稳定的,不是被压缩或伸展。  相似文献   

20.
提出了广义模型,将动态时间规正(DTW,DynamicTimeWarping)技术和隐马尔可夫模型(HMM,HiddenMarkovModel)统一到一个语音声学模型的框架内.分析表明,广义模型更接近语音实际情况并具有很小的存储量.还利用广义模型构造了汉语全音节语音识别器,和离散HMM及DTW的对比实验结果显示:对于特定人识别,广义模型的识别性能和DTW相当而高于离散HMM;对于非特定人识别,广义模型的识别性能高于DTW和离散HMM。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号