期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

汉语连续语音识别中一种新的音节间相关识别单元 总被引：1，自引：0，他引：1

李春王作英《声学学报》2003,(2)

考虑汉语连续语音中的协同发音现象对语音识别性能的提高是非常重要的。针对汉语语音的特点,提出了一种新的在汉语连续语音识别中考虑音节间协同发音现象,对声学模型进行细化的识别单元。然后基于语音学知识对音节间上下文影响进行分类,实现单元间状态参数的共享,降低了模型的复杂程度,保证了模型的可训练度。这种方法和传统方法的最大不同在于:这种方法完全利用语音学知识进行聚类,而传统方法采用数据驱动的聚类方式。识别实验表明,基于语音学分类的音节间相关识别单元对识别性能有明显的改善,系统的首选误识率降低了17％。相似文献

2.

基于随机轨迹模型的汉语连续语音识别方法研究 总被引：1，自引：0，他引：1

马小辉富煜清陆佶人龚一凡《声学学报》1997,(2)

本文在指出隐马尔可夫模型（HMM）不合理假设的基础上,介绍了随机轨迹模型（STM）的理论机制及优越性。随机轨迹模型将语音基元的声学观察表示为参数空间中轨迹的聚类,并将轨迹建模为状态随机序列概率密度函数的混合,该模型可以克服HMM的不合理假设,在理论上更合理。根据STM的特点及汉语语音特色,本文对汉语连续语音识别基元的选取进行了讨论,提出了音素类单元作为识别系统的识别基元。基于STM的汉语连续语音识别的实验结果证明了STM的有效性和音素类单元的一致性。相似文献

3.

基于连续高斯混合密度HMM的汉语全音节语音识别研究 总被引：5，自引：0，他引：5

国立新莫福源李昌立《声学学报》1995,(5)

本文在大量语音分析实验的基础上，对ＨＭＭ用于汉语全音节语音识别进行了较为深入的探讨，建立了一个连续高斯混合密度ＨＭＭ的汉语全音节语音识别系统．该系统在训练算法上撇开了传统的Ｂａｕｍ－Ｗｅｌｃｈ算法，代之以计算复杂度小、存储量小、迭代次数少且具有自动分割效应的分段Ｋ平均算法。对于ＨＭＭ的模型单元的选择，单元的结构以及模型参数的选取，充分考虑了汉语语音的特点；并在语音特征上做了深入的实验分析工作，采用了符合人耳听觉特性的Ｍｅｌ－Ｓｃａｌｅｄ参数，用ＦＦＴ倒谱代替了ＬＰＣ倒谱，同时利用了语音的动态谱特征和能量特征。另外，本文还针对汉语声母的特点，独特地提出了变帧移分析策略。整个识别系统的首选正识率为９１．１％．相似文献

4.

基于发音特征的汉语普通话语音声学建模 总被引：3，自引：0，他引：3

张晴晴潘接林颜永红《声学学报》2010,35(2):254-260

将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概率作为语音识别的输入特征建立声学模型。在汉语普通话非特定人大词表自然口语对话识别系统中进行了实验验证,并与基于频谱特征的声学模型进行了比较,在相同解码速度下,由此方法建立的声学模型汉字错误率相对下降6.8%;将发音特征和频谱特征进行了融合实验,融合以后的识别系统相对基于频谱特征系统的汉字错误率相对下降10.1%。上述结果表明,基于发音特征的声学模型更加有效的实现了对语音特性的表征,通过利用发音特征和频谱特征的互补性,能够进一步实现对语音识别性能的提高。相似文献

5.

汉语普通话区别特征系统 总被引：3，自引：2，他引：1

张家騄《声学学报》2005,(6)

语音区别特征是构成语音信号的基本元素。它不但是语音学和音系学研究的重要内容,也是语音信号处理技术所面对的重要处理对象。本文首先根据汉语普通话语音知觉混淆的群集分析结果,确定汉语的声韵调音位系统。继而按照Jakobson,Fant和Halle的语音区别特征划分的二分法原理,以声学参数为基础结合普通话的特点,建立了声韵调体系的区别特征系统。文中给出了区别特征在声学上的定义和发音生理上的说明。为便于理解声母韵母音位与其区别特征之间的关系和在语音处理中的应用,在附录中还列出了普通话声母(包括变体)、韵母的国际音标和计算机可输入/输出的SAMPA音标,以及声调的SAMPROSA音标。相似文献

6.

汉语耳语音孤立字识别研究 总被引：6，自引：0，他引：6

下载免费PDF全文

杨莉莉林玮徐柏龄《应用声学》2006,25(3):187-192

耳语音识别有着广泛的应用前景,是一个全新的课题.但是由于耳语音本身的特点,如声级低、没有基频等,给耳语音识别研究带来了困难.本文根据耳语音信号发音模型,结合耳语音的声学特性,建立了一个汉语耳语音孤立字识别系统.由于耳语音信噪比低,必须对其进行语音增强处理,同时在识别系统中应用声调信息提高了识别性能.实验结果说明了MFCC结合幅值包络可作为汉语耳语音自动识别的特征参数,在小字库内用HMM模型识别得出的识别率为90.4%. 相似文献

7.

一种用于强噪声环境下语音识别的含噪Lombard及Loud语音补偿方法

田斌易克初《声学学报》2003,(1)

针对语音识别中由于强噪声的影响而引起的Lombard和Loud效应进行研究,提出了基于训练数据的加性噪声和Lombard及Loud效应的联合补偿法。对于加性噪声是从谱减法的逆向角度对训练数据在频谱域采用谱加法;对于Lombard和Loud语音,则采用基于隐马尔可夫模型(HMM)状态标注的训练数据补偿,该方法同时考虑Lombard和Loud语音不同声学单元的不同状态在倒谱域的多种变化和多种变异情况下不同声学单元的音长及相对音长的变化。这种基于数据的多模式补偿使模型自动适应多种噪声和语音变异情况,在强噪声环境下具有很强的鲁棒性,并且不影响识别系统在正常环境或正常发音时的识别性能.同时,由于补偿是在训练过程中得到,不增加识别时的计算复杂度。相似文献

8.

汉语孤立字全音节实时识别系统 总被引：1，自引：0，他引：1

陈韬李昌立莫福源《声学学报》1993,(3)

本文在大量语音实验的基础上,对汉语语音识别方法进行了较为深入的探讨,并以IBMPC/AT配以自行研制开发的TMS320C25-E型高速信号处理板为硬件基础,建立了一个特定人汉语普通话全音节实时识别系统.该系统针对汉语普通话的语音特点,采用了分层识别策略.整个系统响应时间小于0.2秒,用4遍1240个全音节语音对系统进行的严格测试表明:系统四声识别的平均正确率为99％左右,音节识别前5个候选的正确识别率分别为82％,91％,94％,96％,97％;同时,本文根据这一测试结果建立了相应的声韵母混淆矩阵和基于Shepard方法的相似度集群分析树图,并对照汉语语音合成清晰度测试结果及汉语语音知觉结构的集群分析结果,对本系统各部分进行了较为深入的分析,提出了相应的改进措施. 相似文献

9.

音节混淆字典及在汉语口音自适应中的应用研究

刘明宽徐波黄泰翼胡伟湘《声学学报》2002,(1)

提出了一种基于对识别器识别错误的统计分析建立音节混淆字典，并应用该音节混淆字典作为识别器的先验知识来校正结果的识别方法。这种近似的音节混淆字典可以分与语境无关和相关两种情况讨论，作为一种先验知识，它综合地刻画了说话人的发音特征、识别器的识别特征以及二者之间的相对关系。实验中，我们应用语境无关／相关的音节混淆字典于识别带上海口音的普通话识别器，使其音节误识率分别下降１５％及２０％。在此基础上，本论文结合常规的声学模型参数重估自适应ＭＡＰ（最大后验概率）算法进一步研究了这种方法应用于语音识别系统的实际效果。结果证明，二者互为补充，更大地提高了识别器的精度。相似文献

10.

汉语语音资料库的语音学标记及人工切分 总被引：2，自引：0，他引：2

朱维彬张家《声学学报》1999,(3)

介绍了汉语语音综合资料库的一个子库：CAS－SYL。该数据库包括汉语全部有调音节1267个,共计10个发音人;全部语音数据由人工完成音段切分及语音学标注。针对汉语音节的声韵结构,语音学标注水平被定位在半音节层次上．语音学标注符号系统采用了计算机可读的音标符号系统一汉语SAMPA－X（extendedSAMPhoneticAlphabet）．还介绍了语音学标注策略,音段定位原则,基于语音波形的声门关闭时刻：GCI（GlottalClosedInstant）的声学线索。同时对声韵间的协同发音的声学体现进行了总结。最后对人工切分带来的非稳定性进行了分析．相似文献

11.

汉语连续语音数据库的语料设计 总被引：10，自引：0，他引：10

祖漪清《声学学报》1999,(3)

质量优良的语音识别系统或语音合成系统需要高质量的、在语音学和语言学知识指导下设计的科学合理简洁有效的连续语音数据库的支持．在目前阶段,汉语语音数据库应限制在朗读言语（readspeech）的音段方面。为了描写语流中的音变现象,考虑如下语音单元：（1）不计声调的音节（401个）。（2）音节间的双音子415个。（3）音节间的三音子3035个,这是根据37个基本音子,利用音节间共振峰过渡的研究结果,按规则规纳的结果．（4）所有音节间过渡段的韵母一声母结构,采用和同三音子相同的归并方法,共781个．为了增加不同的韵律结构,并考虑语音识别系统的后处理,语料还包括汉语的17类基本句型．选用1993、1994两年的“人民日报”、“百家报刊精选”及若干电视剧本、词典词库作为语料库的原始语料,从中选出2185个句子和388个短语作为朗读语料,它们覆盖了99．8％个无调音节,100％的双音子,99．6％的三音子,以及17类句型。相似文献

12.

基于决策树的汉语三音子模型 总被引：8，自引：2，他引：6

高升徐波黄泰翼《声学学报》2000,(6)

基于决策树理论的上下文相关声学模型在英语语音识别中已经得到了比较深入的研究和应用,但在汉语语音识别中的应用则研究的比较少。本文基于决策树理论建立了汉语语境相关模型-三音于模型,讨论了决策构建模所要解决的几个重要问题：（1）基本建模单元集的选择,（2）音子类别集的设计,（3）评估函数的选择,（4）停止准则的选择,（5）决策树的建立和三音子模型的生成,本文着重分析了两种不同建模单元的性能：对音子类别集的设计提出了一些一般性的准则,并对我们设计的类别集进行了统计分析;分析了三音子模型在语音库的覆盖程度。实验结果表明,基于决策树的三音子声学模型建立的识别系统与双音子声学模型系统比较,误识率下降了24．7％。相似文献

13.

汉语普通话区别特征系统树状图 总被引：9，自引：2，他引：7

张家騄《声学学报》2006,31(3):193-198

本文是“汉语普通话区别特征系统”的继续与发展。文中对汉语区别特征的定义及其在语音中的具体的物理的和心理的体现作了进一步的说明。对汉语普通话区别特征表进行了修订。对发音可能有动程的单韵母／er／做了专门的讨论。为了更直观地表现各音位间区别特征的关系,同时也为了便于语音工程的应用,分别设计绘出了普通话声母和韵母的树状图。文中对音位区别特征的分配及其间的关系作了说明。相似文献

14.

基于ARMA模型的汉语讲话者识别 总被引：3，自引：0，他引：3

林宝成陈永彬《声学学报》1998,(3)

实现了一个仅用鼻音声母且与文本无关的汉语讲话者识别系统，根据讲话者在讲话时鼻腔相对固定、发鼻音时咽腔稳定，以及汉语鼻音声母（只有m-和n-两种）少（全部音节分别只有53和48个）的特点，使用极零（ARMA）模型获得所有汉语鼻声母音节的极点和零点系数的谱参数。系统在对20个讲话者识别时，其性能为：各个人所有单个声母测试时，总正识率为87．92％；分别随机地选用各人的人3、4、5个声母平均后测试时，则平均正识率可达91．67％、95．00％、96．67％、99．97％。相似文献

15.

隐马尔可夫模型和动态时间现正统一框架下的汉语全音节语音识别研究

张焱姜惠春黄志同《声学学报》1998,(6)

提出了广义模型，将动态时间规正（DTW,DynamicTimeWarping）技术和隐马尔可夫模型（HMM，HiddenMarkovModel）统一到一个语音声学模型的框架内．分析表明，广义模型更接近语音实际情况并具有很小的存储量．还利用广义模型构造了汉语全音节语音识别器，和离散HMM及DTW的对比实验结果显示：对于特定人识别，广义模型的识别性能和DTW相当而高于离散HMM；对于非特定人识别，广义模型的识别性能高于DTW和离散HMM。相似文献

16.

基于中文语音识别技术的舰艇指挥训练系统的研究

景春进陈东东周琳琦《应用声学》2014,22(8):2571-2573

针对舰艇指挥训练系统的特点,提出了一种利用语音识别技术提高其训练效率的方法;首先分析了舰艇指挥指令的语言特点,然后研究了基于Sphinx平台的汉语连续语音识别的相关问题,包括声学模型的训练、语言模型的训练及语音识别引擎等;最后设计并实现了一个非特定人,中等专用词汇量的连续汉语语音识别系统;实验采用了一定数量的数字和专用词汇进行验证,结果表明,经过声学模型训练后,该系统的识别率有较大提高;该方法对提高舰艇指挥训练系统的自动化水平具有一定的指导意义。 相似文献

17.

汉语普通话语音数据库

孙金城陈希清李昌立莫福源倪宏李彤《声学学报》1991,(6)

中国科学院声学研究所建立了一个汉语普通话语音数据库,这个语音数据库由声母、韵母、1282个单音节、几百个双音词和三音词、语音试验句、短文及数字0—9等构成。该语音数据库的发音人有六位(三男三女),他们是广播学院的教师和职业播音员,讲标准的汉语普通话。语音材料录制在高质量的磁带上,其中有一部分已数字化。已有许多汉语语音研究部门使用该语音数据库。相似文献

18.

基于偶数帧段输入隐马尔可夫模型的噪声环境下汉语连续语音识别研究 总被引：1，自引：1，他引：0

赵力《声学学报》2002,(1)

提出了利用偶数帧段输入隐马尔可夫模型（ＨＭＭ）提高在噪声环境下汉语连续语音识别系统鲁棒性的方法，并提出了对于传统谱相减降噪技术的修改方法。实验结果表明，本文的方法能有效地提高噪声背景下汉语连续语音识别系统的性能。相似文献

19.

普通话声母和韵母的统计特性

下载免费PDF全文

孙金城倪宏莫福源李昌立《应用声学》1995,14(3):35-41

本文对普通话书面语中声母、韵母的动态与静态分布特性及其差异作了统计分析，结果表明：普通话声母间的、韵母的动态与表态的相对分布关系一致，语音间的相对分布主要与发声系统有关，不受频度的影响。普通话声母、韵母的动态与静态的出现率差异，与声母发音方法和韵线组合结构、声母发音部位与韵母四呼的配合关系、音节的成字率和字的频度有关，主要受送气与不送气声母、韵母的动态与静态的出现率差异最大，多音节词中的韵母的动态相似文献

20.

重庆方言语音识别系统的设计与实现

张策韦鹏程陆晓燕石熙《应用声学》2018,26(1)

语音识别赋予了计算机能够识别出语音内容的功能,是人机交互技术领域的重要研究内容。随着计算机技术的发展,语音识别已经得到了成熟的发展。但是关于方言的语音识别还有很大的发展空间。中国是一个幅员辽阔、人口众多的国家,因此方言种类繁多,其中有3000多万人交流使用的重庆方言就是其中之一。采集了重庆方言的部分词语的文本文件和对应的语音文件建立语料库,根据重庆方言的发音特点,选取重庆方言的声韵母作为声学建模基元,选取隐马尔可夫模型(Hidden Markov Model, HMM)为声学模型设计了一个基于HMM的重庆方言语音识别系统。在训练过程利用语料库中训练集语料对声学模型进行训练,形成HMM模型库;在识别过程利用语料库中的测试集语料进行识别测试。实验结果表明,该系统能够实现重庆方言的语音识别,并且识别的正确率为100%。相似文献