首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 22 毫秒
1.
汉语连续语音数据库的语料设计   总被引:10,自引:0,他引:10  
质量优良的语音识别系统或语音合成系统需要高质量的、在语音学和语言学知识指导下设计的科学合理简洁有效的连续语音数据库的支持.在目前阶段,汉语语音数据库应限制在朗读言语(readspeech)的音段方面。为了描写语流中的音变现象,考虑如下语音单元:(1)不计声调的音节(401个)。(2)音节间的双音子415个。(3)音节间的三音子3035个,这是根据37个基本音子,利用音节间共振峰过渡的研究结果,按规则规纳的结果.(4)所有音节间过渡段的韵母一声母结构,采用和同三音子相同的归并方法,共781个.为了增加不同的韵律结构,并考虑语音识别系统的后处理,语料还包括汉语的17类基本句型.选用1993、1994两年的“人民日报”、“百家报刊精选”及若干电视剧本、词典词库作为语料库的原始语料,从中选出2185个句子和388个短语作为朗读语料,它们覆盖了99.8%个无调音节,100%的双音子,99.6%的三音子,以及17类句型。  相似文献   

2.
本文在分析了汉语单音节发音的音节结构的基础上,定义了基于声韵母类的语音识别单元,从声学角度确定了用于汉语全音节识别系统的声学单元,并研究了这些声学单元的检测一致性及基于这些单元的识别系统的鲁棒性。文中还对大量的发音人的声母类发音的长度作了统计,给出了基于本文给出的分割算法和本文定义的声母单元下的声母长度预分类方法。通过在非特定人全音节汉语语音识别系统上的应用表明,本文定义的语音识别单元具有很高的检测一致性,建立在其上的识别,系统也具有很高的鲁棒性;文中给出的预选方法在最好的情况下,可以减少一半以上的运算量,而预选精度几乎达到100%。  相似文献   

3.
基于连续高斯混合密度HMM的汉语全音节语音识别研究   总被引:5,自引:0,他引:5  
本文在大量语音分析实验的基础上,对HMM用于汉语全音节语音识别进行了较为深入的探讨,建立了一个连续高斯混合密度HMM的汉语全音节语音识别系统.该系统在训练算法上撇开了传统的Baum-Welch算法,代之以计算复杂度小、存储量小、迭代次数少且具有自动分割效应的分段K平均算法。对于HMM的模型单元的选择,单元的结构以及模型参数的选取,充分考虑了汉语语音的特点;并在语音特征上做了深入的实验分析工作,采用了符合人耳听觉特性的Mel-Scaled参数,用FFT倒谱代替了LPC倒谱,同时利用了语音的动态谱特征和能量特征。另外,本文还针对汉语声母的特点,独特地提出了变帧移分析策略。整个识别系统的首选正识率为91.1%.  相似文献   

4.
汉语连续语音识别中一种新的音节间相关识别单元   总被引:1,自引:0,他引:1  
考虑汉语连续语音中的协同发音现象对语音识别性能的提高是非常重要的。针对汉语语音的特点,提出了一种新的在汉语连续语音识别中考虑音节间协同发音现象,对声学模型进行细化的识别单元。然后基于语音学知识对音节间上下文影响进行分类,实现单元间状态参数的共享,降低了模型的复杂程度,保证了模型的可训练度。这种方法和传统方法的最大不同在于:这种方法完全利用语音学知识进行聚类,而传统方法采用数据驱动的聚类方式。识别实验表明,基于语音学分类的音节间相关识别单元对识别性能有明显的改善,系统的首选误识率降低了17%。  相似文献   

5.
汉语孤立字全音节实时识别系统   总被引:1,自引:0,他引:1  
本文在大量语音实验的基础上,对汉语语音识别方法进行了较为深入的探讨,并以IBMPC/AT配以自行研制开发的TMS320C25-E型高速信号处理板为硬件基础,建立了一个特定人汉语普通话全音节实时识别系统.该系统针对汉语普通话的语音特点,采用了分层识别策略.整个系统响应时间小于0.2秒,用4遍1240个全音节语音对系统进行的严格测试表明:系统四声识别的平均正确率为99%左右,音节识别前5个候选的正确识别率分别为82%,91%,94%,96%,97%;同时,本文根据这一测试结果建立了相应的声韵母混淆矩阵和基于Shepard方法的相似度集群分析树图,并对照汉语语音合成清晰度测试结果及汉语语音知觉结构的集群分析结果,对本系统各部分进行了较为深入的分析,提出了相应的改进措施.  相似文献   

6.
汉语音节音联感知特性研究   总被引:1,自引:0,他引:1  
汉语音联可分为:闭音联、音节音联、节奏音联和停顿音联等四级,其中团音朕最强、音节音联次之,另外两种音联较弱。在以音节为基本单元的汉语合成系统中,闭音联已保留在语音库中,因此需要着重考虑的是音节音联。本文以服务于汉语文语转换系统为目的,通过两个阶段的感知实验,研究了汉语音节音联在听觉感知中的作用。得到以下结论:①从总体上看,听音人对汉语双音节词中音高模式的变化的感知比较灵敏,而对音节间共振峰过波段的感知不灵敏,共振峰过波段对合成语音的自然度的影响不显著。②有语音学知识背景的专家或专业人员在判别合成语音的自然度时,比普通听音人更注意音节间的共振峰过渡。但即使是专家,也不容易判别在合成语音中音节间是否包含了共振蜂的平滑过渡。③双音节调的语音结构对音节间共振峰过渡的感知有影响。双音节词的声调组合对它也有一定影响。  相似文献   

7.
汉语综合资料库的设计   总被引:1,自引:0,他引:1       下载免费PDF全文
语言是人类最重要的交际工具,随着现代信息技术的发展,语言也是人与机器之间交际的有效工具.近年来世界各国纷纷建立本国的言语资料库作为言语科学研究和言语技术开发的基础.汉语综合资料库的语音材料有:汉语全部有调音节、数字串、单词、韵律特征材料,以及语言清晰度试验用音节表、词表、句表和有代表性的短文等.汉语综合资料库在语言学和语音学特征以及声学特征方面充分体现汉语的基本特点.首先要解决语料选取问题,考虑各种语言单位的使用频率,不仅要包括全部高频词,也要反映较全面的语音现象.数据库在结构上是开放的模块式的,同时配有灵活的数据库管理系统.  相似文献   

8.
景春进  陈东东  周琳琦 《应用声学》2014,22(8):2571-2573
针对舰艇指挥训练系统的特点,提出了一种利用语音识别技术提高其训练效率的方法;首先分析了舰艇指挥指令的语言特点,然后研究了基于Sphinx平台的汉语连续语音识别的相关问题,包括声学模型的训练、语言模型的训练及语音识别引擎等;最后设计并实现了一个非特定人,中等专用词汇量的连续汉语语音识别系统;实验采用了一定数量的数字和专用词汇进行验证,结果表明,经过声学模型训练后,该系统的识别率有较大提高;该方法对提高舰艇指挥训练系统的自动化水平具有一定的指导意义。  相似文献   

9.
听觉外周计算模型研究进展   总被引:5,自引:0,他引:5  
李朝晖  迟惠生 《声学学报》2006,31(5):449-465
在简单介绍听觉外周特性之后,对近30年听觉外周计算模型的研究及其在语音识别领域的应用进行了评述,针对未来语音信号处理领域中听觉外周的建模,提出了一些设想;讨论了在被动声呐目标识别任务中应用听觉模型的可能性,同时,结合声呐目标识别的特点,对听觉外周模型的适用性建模研究,提出了若干建议。  相似文献   

10.
汉语语音资料库的语音学标记及人工切分   总被引:2,自引:0,他引:2  
介绍了汉语语音综合资料库的一个子库:CAS-SYL。该数据库包括汉语全部有调音节1267个,共计10个发音人;全部语音数据由人工完成音段切分及语音学标注。针对汉语音节的声韵结构,语音学标注水平被定位在半音节层次上.语音学标注符号系统采用了计算机可读的音标符号系统一汉语SAMPA-X(extendedSAMPhoneticAlphabet).还介绍了语音学标注策略,音段定位原则,基于语音波形的声门关闭时刻:GCI(GlottalClosedInstant)的声学线索。同时对声韵间的协同发音的声学体现进行了总结。最后对人工切分带来的非稳定性进行了分析.  相似文献   

11.
基于半波差分谱的语音信号音节切分   总被引:1,自引:1,他引:0  
根据听觉感知系统对于动态语音特征的响应特点,提出了半波差分港的概念,在此基础上提出了一种简便的音节切分算法,可以将存在大量协同发音现象的连续语音切分成一个个音节。在连续语音上的切分实验结果说明这种切分算法是准确而可靠的.  相似文献   

12.
分层语音合成数据库的分析与裁减   总被引:2,自引:0,他引:2  
提出汉语分层语音合成数据库的概念,通过对其分析和裁减,有如下结果:(1)数据库音节基频、时长、能量的变化有层次.(2)数据库的拼接合成质量接近大语料库的拼接合成质量。(3)数据库为实现表情语调的拼接合成奠定了基础。(4)数据库资源消耗远小于大语料数据库的资源消耗。  相似文献   

13.
提出了广义模型,将动态时间规正(DTW,DynamicTimeWarping)技术和隐马尔可夫模型(HMM,HiddenMarkovModel)统一到一个语音声学模型的框架内.分析表明,广义模型更接近语音实际情况并具有很小的存储量.还利用广义模型构造了汉语全音节语音识别器,和离散HMM及DTW的对比实验结果显示:对于特定人识别,广义模型的识别性能和DTW相当而高于离散HMM;对于非特定人识别,广义模型的识别性能高于DTW和离散HMM。  相似文献   

14.
张家■:中国科学院声学所研究 员,中国声学学会常务理事,语 言、听觉和音乐声学分会主任, 《应用声学》副主编。主要从事 言语科学和言语技术研究。设计 了汉语普通话清晰度试验方法和建立了汉语可懂度理论基础;导出了汉语清晰度指数;建立了不同语言单位清晰度试验得分之间的统计关系,并且证明了汉语音节结构有助于提高可懂度。在不同语速、不同声级下测得了远场和近场的语言长时平均频谱。定量地证明了汉语声调对提高可懂度的作用。揭示汉语元音的内在音高规律并实验研究语音产生中的相互作用。曾获国家自然科学三等奖,中国科学院…  相似文献   

15.
尹辉  谢湘  匡镜明 《声学学报》2012,37(1):97-103
分数阶Fourier变换在处理非平稳信号尤其是chirp信号方面有着独特的优势,而人耳听觉系统具有自动语音识别系统难以比拟的优良性能。本文采用Gammatone听觉滤波器组对语音信号进行前端时域滤波,然后对输出的各个子带信号用分数阶Fourer变换方法提取声学特征。分数阶Fourier变换的阶数对其性能有着重要影响,本文针对子带时域信号提出了采用瞬时频率曲线拟合求取阶数的方法,并将其与采用模糊函数的方法作了比较。在干净与含噪汉语孤立数字库上的语音识别结果表明,采用新提出的声学特征得到的识别正确率相对MFCC基线系统有了显著提高;根据瞬时频率曲线搜索阶数的算法与模糊函数方法相比,计算量大大减少,并且根据该方法提取的声学特征得到了最高的平均识别正确率。   相似文献   

16.
汉语耳语音孤立字识别研究   总被引:6,自引:0,他引:6       下载免费PDF全文
杨莉莉  林玮  徐柏龄 《应用声学》2006,25(3):187-192
耳语音识别有着广泛的应用前景,是一个全新的课题.但是由于耳语音本身的特点,如声级低、没有基频等,给耳语音识别研究带来了困难.本文根据耳语音信号发音模型,结合耳语音的声学特性,建立了一个汉语耳语音孤立字识别系统.由于耳语音信噪比低,必须对其进行语音增强处理,同时在识别系统中应用声调信息提高了识别性能.实验结果说明了MFCC结合幅值包络可作为汉语耳语音自动识别的特征参数,在小字库内用HMM模型识别得出的识别率为90.4%.  相似文献   

17.
语音识别赋予了计算机能够识别出语音内容的功能,是人机交互技术领域的重要研究内容。随着计算机技术的发展,语音识别已经得到了成熟的发展。但是关于方言的语音识别还有很大的发展空间。中国是一个幅员辽阔、人口众多的国家,因此方言种类繁多,其中有3000多万人交流使用的重庆方言就是其中之一。采集了重庆方言的部分词语的文本文件和对应的语音文件建立语料库,根据重庆方言的发音特点,选取重庆方言的声韵母作为声学建模基元,选取隐马尔可夫模型(Hidden Markov Model, HMM)为声学模型设计了一个基于HMM的重庆方言语音识别系统。在训练过程利用语料库中训练集语料对声学模型进行训练,形成HMM模型库;在识别过程利用语料库中的测试集语料进行识别测试。实验结果表明,该系统能够实现重庆方言的语音识别,并且识别的正确率为100%。  相似文献   

18.
为了寻找司法话者识别中区别同卵双胞胎语音的有效参量,该文利用音节音强的斜率特性对同卵双胞胎语音进行了实验研究。结果发现,在90%的置信度下,所有实验的双胞胎语音均能够被音节音强斜率予以区别,并且音强下降斜率的区别力明显高于音强上升斜率的区别力。因此得出结论,音节音强的斜率特性具有比音节间相对音强与相对时长二者联合检验更强的区别力,可以作为区别同卵双胞胎语音的有效参量。  相似文献   

19.
提出了基于帧特征、段特征联合建模的语音识别模型。该模型采用描述谱参数轨迹的段特征,在段尺度上实现了对语音信号帧间相关性的显式建模;采用段特征依赖的非平稳时间序列产生模型,实现了段特征与帧特征间的相关性建模,并在帧尺度上通过参数化的均值轨迹函数,实现了对语音信号帧间相关性的隐式建模。本文给出了基于帧特征、段特征联合统计距离优化的分段算法以及内嵌EM迭代的模型参数估计算法。对非特定人汉语孤立韵母以及多话者汉语基本音节的识别实验表明,该模型的识别性能优于标准HMM及趋势HMM。  相似文献   

20.
中国科学院声学研究所建立了一个汉语普通话语音数据库,这个语音数据库由声母、韵母、1282个单音节、几百个双音词和三音词、语音试验句、短文及数字0—9等构成。该语音数据库的发音人有六位(三男三女),他们是广播学院的教师和职业播音员,讲标准的汉语普通话。语音材料录制在高质量的磁带上,其中有一部分已数字化。已有许多汉语语音研究部门使用该语音数据库。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号