首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于连续高斯混合密度HMM的汉语全音节语音识别研究   总被引:5,自引:0,他引:5  
本文在大量语音分析实验的基础上,对HMM用于汉语全音节语音识别进行了较为深入的探讨,建立了一个连续高斯混合密度HMM的汉语全音节语音识别系统.该系统在训练算法上撇开了传统的Baum-Welch算法,代之以计算复杂度小、存储量小、迭代次数少且具有自动分割效应的分段K平均算法。对于HMM的模型单元的选择,单元的结构以及模型参数的选取,充分考虑了汉语语音的特点;并在语音特征上做了深入的实验分析工作,采用了符合人耳听觉特性的Mel-Scaled参数,用FFT倒谱代替了LPC倒谱,同时利用了语音的动态谱特征和能量特征。另外,本文还针对汉语声母的特点,独特地提出了变帧移分析策略。整个识别系统的首选正识率为91.1%.  相似文献   

2.
本文在分析了汉语单音节发音的音节结构的基础上,定义了基于声韵母类的语音识别单元,从声学角度确定了用于汉语全音节识别系统的声学单元,并研究了这些声学单元的检测一致性及基于这些单元的识别系统的鲁棒性。文中还对大量的发音人的声母类发音的长度作了统计,给出了基于本文给出的分割算法和本文定义的声母单元下的声母长度预分类方法。通过在非特定人全音节汉语语音识别系统上的应用表明,本文定义的语音识别单元具有很高的检测一致性,建立在其上的识别,系统也具有很高的鲁棒性;文中给出的预选方法在最好的情况下,可以减少一半以上的运算量,而预选精度几乎达到100%。  相似文献   

3.
汉语连续语音识别中一种新的音节间相关识别单元   总被引:1,自引:0,他引:1  
考虑汉语连续语音中的协同发音现象对语音识别性能的提高是非常重要的。针对汉语语音的特点,提出了一种新的在汉语连续语音识别中考虑音节间协同发音现象,对声学模型进行细化的识别单元。然后基于语音学知识对音节间上下文影响进行分类,实现单元间状态参数的共享,降低了模型的复杂程度,保证了模型的可训练度。这种方法和传统方法的最大不同在于:这种方法完全利用语音学知识进行聚类,而传统方法采用数据驱动的聚类方式。识别实验表明,基于语音学分类的音节间相关识别单元对识别性能有明显的改善,系统的首选误识率降低了17%。  相似文献   

4.
普通话轻声音节的规则合成   总被引:2,自引:0,他引:2       下载免费PDF全文
杨顺安 《应用声学》1991,10(1):12-18
在以北京话为基础的普通话中,轻声是一种很有特色的语音现象.本文根据传统语音学对轻声音节的定性描叙,参考声学语音学对轻声音节的分析结果,初步归纳出一套合成轻声音节的规则.利用“普通话语音合成系统”合成出音质较满意的含有轻声音节的词语.  相似文献   

5.
基于发音特征的汉语普通话语音声学建模   总被引:3,自引:0,他引:3  
将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概率作为语音识别的输入特征建立声学模型。在汉语普通话非特定人大词表自然口语对话识别系统中进行了实验验证,并与基于频谱特征的声学模型进行了比较,在相同解码速度下,由此方法建立的声学模型汉字错误率相对下降6.8%;将发音特征和频谱特征进行了融合实验,融合以后的识别系统相对基于频谱特征系统的汉字错误率相对下降10.1%。上述结果表明,基于发音特征的声学模型更加有效的实现了对语音特性的表征,通过利用发音特征和频谱特征的互补性,能够进一步实现对语音识别性能的提高。   相似文献   

6.
汉语听觉视觉双模态数据库CAVSR1.0   总被引:8,自引:0,他引:8  
听觉视觉双模态语音识别在国际上已经逐渐成为当前语音识别的热点之一,汉语的双模态识别研究也已开始启动。然而,由于视觉信息获取及处理难度极大,目前的双模态语音数据库的建设尚显薄弱,汉语方面更是空白。鉴于此,我们在进行听觉视觉双模态语音识别关键技术研究的同时,在分析国外同类数据库的结构的基础上,结合汉语语音的特点,建立了汉语语音的第一个双模态数据库CAVSR1.0。它具有如下特点:采用的语料涵盖所有声韵母,其规模(总数据量、音节量)超出目前国际上同类数据库;语料分布符合汉语声韵母的实际分布概率,因此其反映的规律具有代表性;捆绑了自动音节分割程序及脸部主要特征标定程序,使数据库具有很强的可扩展性。  相似文献   

7.
提出了一种基于对识别器识别错误的统计分析建立音节混淆字典,并应用该音节混淆字典作为识别器的先验知识来校正结果的识别方法。这种近似的音节混淆字典可以分与语境无关和相关两种情况讨论,作为一种先验知识,它综合地刻画了说话人的发音特征、识别器的识别特征以及二者之间的相对关系。实验中,我们应用语境无关/相关的音节混淆字典于识别带上海口音的普通话识别器,使其音节误识率分别下降15%及20%。在此基础上,本论文结合常规的声学模型参数重估自适应MAP(最大后验概率)算法进一步研究了这种方法应用于语音识别系统的实际效果。结果证明,二者互为补充,更大地提高了识别器的精度。  相似文献   

8.
汉语普通话区别特征系统   总被引:3,自引:2,他引:1  
语音区别特征是构成语音信号的基本元素。它不但是语音学和音系学研究的重要内容,也是语音信号处理技术所面对的重要处理对象。本文首先根据汉语普通话语音知觉混淆的群集分析结果,确定汉语的声韵调音位系统。继而按照Jakobson,Fant和Halle的语音区别特征划分的二分法原理,以声学参数为基础结合普通话的特点,建立了声韵调体系的区别特征系统。文中给出了区别特征在声学上的定义和发音生理上的说明。为便于理解声母韵母音位与其区别特征之间的关系和在语音处理中的应用,在附录中还列出了普通话声母(包括变体)、韵母的国际音标和计算机可输入/输出的SAMPA音标,以及声调的SAMPROSA音标。  相似文献   

9.
汉语耳语音孤立字识别研究   总被引:6,自引:0,他引:6       下载免费PDF全文
杨莉莉  林玮  徐柏龄 《应用声学》2006,25(3):187-192
耳语音识别有着广泛的应用前景,是一个全新的课题.但是由于耳语音本身的特点,如声级低、没有基频等,给耳语音识别研究带来了困难.本文根据耳语音信号发音模型,结合耳语音的声学特性,建立了一个汉语耳语音孤立字识别系统.由于耳语音信噪比低,必须对其进行语音增强处理,同时在识别系统中应用声调信息提高了识别性能.实验结果说明了MFCC结合幅值包络可作为汉语耳语音自动识别的特征参数,在小字库内用HMM模型识别得出的识别率为90.4%.  相似文献   

10.
汉语音节音联感知特性研究   总被引:1,自引:0,他引:1  
汉语音联可分为:闭音联、音节音联、节奏音联和停顿音联等四级,其中团音朕最强、音节音联次之,另外两种音联较弱。在以音节为基本单元的汉语合成系统中,闭音联已保留在语音库中,因此需要着重考虑的是音节音联。本文以服务于汉语文语转换系统为目的,通过两个阶段的感知实验,研究了汉语音节音联在听觉感知中的作用。得到以下结论:①从总体上看,听音人对汉语双音节词中音高模式的变化的感知比较灵敏,而对音节间共振峰过波段的感知不灵敏,共振峰过波段对合成语音的自然度的影响不显著。②有语音学知识背景的专家或专业人员在判别合成语音的自然度时,比普通听音人更注意音节间的共振峰过渡。但即使是专家,也不容易判别在合成语音中音节间是否包含了共振蜂的平滑过渡。③双音节调的语音结构对音节间共振峰过渡的感知有影响。双音节词的声调组合对它也有一定影响。  相似文献   

11.
采用一种新的方法导出了汉语普通话的清晰度指数.给出了音节清晰度与理想高、低通滤波系统截止频率的关系、清晰度指数与音节清晰度的关系. 对所得清晰度指数进行了试验检查.  相似文献   

12.
基于ARMA模型的汉语讲话者识别   总被引:3,自引:0,他引:3  
实现了一个仅用鼻音声母且与文本无关的汉语讲话者识别系统,根据讲话者在讲话时鼻腔相对固定、发鼻音时咽腔稳定,以及汉语鼻音声母(只有m-和n-两种)少(全部音节分别只有53和48个)的特点,使用极零(ARMA)模型获得所有汉语鼻声母音节的极点和零点系数的谱参数。系统在对20个讲话者识别时,其性能为:各个人所有单个声母测试时,总正识率为87.92%;分别随机地选用各人的人3、4、5个声母平均后测试时,则平均正识率可达91.67%、95.00%、96.67%、99.97%。  相似文献   

13.
汉语连续语音数据库的语料设计   总被引:10,自引:0,他引:10  
质量优良的语音识别系统或语音合成系统需要高质量的、在语音学和语言学知识指导下设计的科学合理简洁有效的连续语音数据库的支持.在目前阶段,汉语语音数据库应限制在朗读言语(readspeech)的音段方面。为了描写语流中的音变现象,考虑如下语音单元:(1)不计声调的音节(401个)。(2)音节间的双音子415个。(3)音节间的三音子3035个,这是根据37个基本音子,利用音节间共振峰过渡的研究结果,按规则规纳的结果.(4)所有音节间过渡段的韵母一声母结构,采用和同三音子相同的归并方法,共781个.为了增加不同的韵律结构,并考虑语音识别系统的后处理,语料还包括汉语的17类基本句型.选用1993、1994两年的“人民日报”、“百家报刊精选”及若干电视剧本、词典词库作为语料库的原始语料,从中选出2185个句子和388个短语作为朗读语料,它们覆盖了99.8%个无调音节,100%的双音子,99.6%的三音子,以及17类句型。  相似文献   

14.
汉语语音资料库的语音学标记及人工切分   总被引:2,自引:0,他引:2  
介绍了汉语语音综合资料库的一个子库:CAS-SYL。该数据库包括汉语全部有调音节1267个,共计10个发音人;全部语音数据由人工完成音段切分及语音学标注。针对汉语音节的声韵结构,语音学标注水平被定位在半音节层次上.语音学标注符号系统采用了计算机可读的音标符号系统一汉语SAMPA-X(extendedSAMPhoneticAlphabet).还介绍了语音学标注策略,音段定位原则,基于语音波形的声门关闭时刻:GCI(GlottalClosedInstant)的声学线索。同时对声韵间的协同发音的声学体现进行了总结。最后对人工切分带来的非稳定性进行了分析.  相似文献   

15.
汉语普通话辅音音长分析   总被引:10,自引:0,他引:10  
汉语普通话辅音音长是语音的基本参数之一,在语言合成、语言识别等研究中,这一参数有很大实用价值。 本测量是对七个男声、六个女声进行分析,得到普通话22个辅音的平均音长及其标准偏差。 按照测量的需要,设计了试验词表。词表是由22个词组成,每个词有两个音节,每个音节有相同的辅音,不同的元音和声调。当然,每个音节长度各不相同。这样便于考察在连读中辅音音长与所在位置、相拼元音、声调的关系;比较音长绝对值与相对值的关系。 发音人在消声室进行录音。他们绝大部分是青年,能讲纯正的普通话。通过录音,由语图仪进行分析。由于有些辅音频带宽、能量弱、作用时间短,在语图分析时使用高速档并提高放声电压和烧灼电压,使辅音部分在语图中能得到清晰的反映。 经过统计处理,得到以下几点初步结论: 1.辅音音长与送气状态有直接关系,不送气塞音最短,送气塞擦音最长。各种发音方式之间有一定的音长比值。而音长与发音部位关系不大。 2.辅音音长与声调、全音节长度关系不大,但送气塞擦音受后接元音影响,元音开口度大音长短。 3.在连读中,前后两音节中的辅音长度与所在前后位置无关。  相似文献   

16.
基于决策树的汉语三音子模型   总被引:8,自引:2,他引:6  
基于决策树理论的上下文相关声学模型在英语语音识别中已经得到了比较深入的研究和应用,但在汉语语音识别中的应用则研究的比较少。本文基于决策树理论建立了汉语语境相关模型-三音于模型,讨论了决策构建模所要解决的几个重要问题:(1)基本建模单元集的选择,(2)音子类别集的设计,(3)评估函数的选择,(4)停止准则的选择,(5)决策树的建立和三音子模型的生成,本文着重分析了两种不同建模单元的性能:对音子类别集的设计提出了一些一般性的准则,并对我们设计的类别集进行了统计分析;分析了三音子模型在语音库的覆盖程度。实验结果表明,基于决策树的三音子声学模型建立的识别系统与双音子声学模型系统比较,误识率下降了24.7%。  相似文献   

17.
张家騄 《物理学报》1974,23(5):17-22
在大量普通话清晰度试验的基础上,根据汉语音节结构的具体分析,认为语言的内部信息——结构规律在言语的主观识别过程中是十分重要的因素。这特别表现在言语信号受到较大的干扰或失真,言语信号的物理特性已不能提供充分的识别条件时,内部信息发生较大的作用。本文提出了考虑到这一内部信息作用的音节清晰度与音位清晰度之间的统计关系。这一关系,比Fletcher与Steinberg所建立的统计关系,更好地符合大量试验的结果。  相似文献   

18.
李素秋 《应用声学》2022,41(5):808-814
利用Praat语音分析软件,对柯尔克孜族学生汉语单字调进行了声学实验研究。实验选取22个汉语普通话单音节词,在规定的采样率和采样精度下测试柯尔克孜学生的声调格局、调长、调域,并和普通话水平测试员进行对比,32位被试参与了此项研究。研究发现,柯尔克孜族学生将阴平、阳平读成了微降调,且两条声调曲线非常接近,和普通话调型差别较大;上声调型正确,但调长较短、终点T值偏低;去声发音过于用力,起点触顶,听感上不够自然;阴平调域较宽,其他各个调类的调域较窄。针对以上情况,文章提出了相应的教学参考建议。  相似文献   

19.
汉语普通话机读音标SAMPA-SC   总被引:2,自引:0,他引:2  
机读音标SAMPA在欧共体语言中已得到普遍应用,在国际言语资料库和言语输入/输出系统评价协调委员会(CO-COSDA)的主持下,已向世界上众多语言推广.本文是对汉语机读音标的修改和扩展.汉语普通话机读音标,是以汉语拼音方案为基础,分别列出声母(辅音)、元音、韵母和声调的机读音标SAMPA和国际音标,并给出相应的例字.本文还特别把机读音标扩展到儿化韵,以适应语音识别、文-语转换技术和语言教学的需要.  相似文献   

20.
蔡德和 《应用声学》1996,15(1):39-45
本文主要研究:以音素为识别基元,运用语音学知识,对非特定人的普通话复合元音进行识别。其特点是音素识别由神经网络(NN)完成,为了便于利用语音知识NN输入层的刺激采用语音的功率谱,用单元音训练的NN识另非特定人的普通话复合元音,识别率是54%。而运用语音学知识后,其识别率提高到90%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号