期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于连续高斯混合密度HMM的汉语全音节语音识别研究 总被引：5，自引：0，他引：5

国立新莫福源李昌立《声学学报》1995,(5)

本文在大量语音分析实验的基础上，对ＨＭＭ用于汉语全音节语音识别进行了较为深入的探讨，建立了一个连续高斯混合密度ＨＭＭ的汉语全音节语音识别系统．该系统在训练算法上撇开了传统的Ｂａｕｍ－Ｗｅｌｃｈ算法，代之以计算复杂度小、存储量小、迭代次数少且具有自动分割效应的分段Ｋ平均算法。对于ＨＭＭ的模型单元的选择，单元的结构以及模型参数的选取，充分考虑了汉语语音的特点；并在语音特征上做了深入的实验分析工作，采用了符合人耳听觉特性的Ｍｅｌ－Ｓｃａｌｅｄ参数，用ＦＦＴ倒谱代替了ＬＰＣ倒谱，同时利用了语音的动态谱特征和能量特征。另外，本文还针对汉语声母的特点，独特地提出了变帧移分析策略。整个识别系统的首选正识率为９１．１％．相似文献

2.

基于掩蔽特性的噪声环境下语音识别新特征 总被引：4，自引：1，他引：3

蒋文建韦岗《声学学报》2001,(6)

语音识别系统的识别率在噪声环境中下降很大。本文根据人耳的听觉特性,提出一种基于人耳听觉掩蔽特性的抗噪声特征提取方法。该方法先求取噪声语音的掩蔽特性,在此基础上再计算Ｍｅｌ倒谱系数用于语音识别。通过对ＴＩＭＩＴ数据包的０～９十个英语数字在ＮｏｉｓｅＸ９２的各种噪声下进行了识别试验。其中在信噪比０ｄＢ条件下,在３种噪声条件下识别率平均提高１５２％,实验表明新方法对于各种噪声环境下的识别率有显著提高。相似文献

3.

用于噪声鲁棒性语音识别的子带能量规整感知线性预测系数

下载免费PDF全文

蔡尚金鑫高圣翔潘接林颜永红《声学学报》2012,37(6):667-672

为了提高感知线性预测系数(PLP)在噪声环境下的识别性能,使用子带能量偏差减的方法,提出了一种基于子带能量规整的感知线性预测系数(SPNPLP)。PLP有效地集中了语音中的有用信息,在安静环境下自动语音识别系统使用PLP可以取得良好的识别率;但是在噪声环境中其识别性能急剧下降。通过使用能量偏差减的方法对PLP的子带能量进行规整,抑制背景噪声激励,提出了SPNPLP,增强自动语音识别系统在噪声环境下的鲁棒性。在一个语法大小为501的孤立词识别任务和一个大词表连续语音识别任务上做了测试,SPNPLP在这两个任务上,与PLP相比,汉字识别精度分别绝对提升了11.26%和9.2%。实验结果表明SPNPLP比PLP具有更好的噪声鲁棒性。相似文献

4.

高噪声背景下的孤立词语音识别方法研究及系统实现 总被引：2，自引：0，他引：2

王承发徐近需扬子云韩纪庆任为民吕成国《声学学报》1998,(3)

对高噪声背景下的语音特点进行了分析，提出了适应于高噪声背景下孤立词语音识别的全套方法，进行了系统实现。对本方法和系统进行了详细的实验比较和测试，证明系统在80dB左右接近同类无噪声识别系统的精度，最高可以抵抗100dB的噪声。相似文献

5.

基于中文语音识别技术的舰艇指挥训练系统的研究

景春进陈东东周琳琦《应用声学》2014,22(8):2571-2573

针对舰艇指挥训练系统的特点,提出了一种利用语音识别技术提高其训练效率的方法;首先分析了舰艇指挥指令的语言特点,然后研究了基于Sphinx平台的汉语连续语音识别的相关问题,包括声学模型的训练、语言模型的训练及语音识别引擎等;最后设计并实现了一个非特定人,中等专用词汇量的连续汉语语音识别系统;实验采用了一定数量的数字和专用词汇进行验证,结果表明,经过声学模型训练后,该系统的识别率有较大提高;该方法对提高舰艇指挥训练系统的自动化水平具有一定的指导意义。 相似文献

6.

基于连续HMM的汉语数码语音识别系统

钟明辉曹乃文黄汉明郑建华陈芽玲《广西物理》2007,28(4):24-26

探讨了连续隐马尔可夫模型的基本原理及其在汉语数码语音识别中的应用,实现了一个汉语数码语音识别系统,其正确识别率达到99%以上。相似文献

7.

全音节汉语语音识别系统的声学模型研究

关存太陈永彬吴伯修《声学学报》1994,(5)

本文在分析了汉语单音节发音的音节结构的基础上，定义了基于声韵母类的语音识别单元，从声学角度确定了用于汉语全音节识别系统的声学单元，并研究了这些声学单元的检测一致性及基于这些单元的识别系统的鲁棒性。文中还对大量的发音人的声母类发音的长度作了统计，给出了基于本文给出的分割算法和本文定义的声母单元下的声母长度预分类方法。通过在非特定人全音节汉语语音识别系统上的应用表明，本文定义的语音识别单元具有很高的检测一致性，建立在其上的识别，系统也具有很高的鲁棒性；文中给出的预选方法在最好的情况下，可以减少一半以上的运算量，而预选精度几乎达到１００％。相似文献

8.

基于声调建模的带噪汉语数字串语音识别 总被引：1，自引：1，他引：1

王欢良钱瑶 F.K.SOONG 韩纪庆《声学学报》2007,32(5):454-460

尝试利用声调信息来改善噪声下汉语数字串语音识别性能。为解决声调特征不连续问题,提出采用基于多空间概率分布的隐马尔可夫模型进行声调建模。简要分析噪声对声调特征提取的影响,论证了在带噪数字串语音识别中利用声调信息的可行性。实验结果显示,与不采用声调信息的方法相比,在5 dB到20 dB的测试数据上,所提方法可使错误率平均相对下降17.2%。这说明声调信息及所提建模方法对于改善带噪汉语数字串语音识别性能是有效的。相似文献

9.

噪声环境中的汉语浊语音检测 总被引：1，自引：0，他引：1

李正友李天伟黄谦隋振庚《声学学报》2014,39(4):517-522

为了在低信噪比和复杂噪声环境下检测汉语浊语音,根据浊语音谐波结构特性,提出了一种鲁棒的浊语音检测方法。通过改进的谱跟踪算法,得到能表征浊语音谐波特性的一簇谱线;从谱线簇中提取谐波特征作为汉语浊语音检测的依据。在不同信噪比和不同噪声环境下的浊语音检测对比实验中全面优于传统方法,在0 dB信噪比时正识率高于传统方法约30%。实验结果表明,该方法在低信噪比和非平稳复杂噪声环境下都具有较好的浊语音检测效果。相似文献

10.

BP神经网络在汉语数字语音识别中的应用

罗梅江丽莎罗涟玲《广西物理》2012,(3):26-28

从语音信号产生的数字模型出发,对1～10这10个汉语数字的语音信号进行预处理,提取了Mel频率倒谱系数,并将特征参数序列进行非线性时间规整为固定的帧数,使用BP神经网络的训练和识别,研究该方法的可行性和有效性。结果表明,在噪声环境下1,7,9的识别率为80%,而2,3,4,5,6,8,10的识别率都是100%,识别率主要受噪声、不同人的发音不同等因素的影响。该方法具有可行性强、识别率高的特点,可应用于语音识别系统。相似文献

11.

认人的限定主题的连续汉语语音识别系统的研究 总被引：3，自引：0，他引：3

林道发杨家沅罗万伯王跟东《声学学报》1992,(6)

本文描述一个基于矢量量化(VQ)、隐马尔可夫模型和有限态文法的认人的限定主题的连续汉语语音识别系统。引入跨零幅度差函数作为判定语音有无的特征参量之一,HMM训练用的各单个词语的语音数据由连续话句的语音数据经自动切分而得,识别过程中,每帧都考虑多个可能过渡到其它模型的文法节点。这些技术措施显著地提高了识别系统的准确率。这类系统能用于特定人操作的、特定主题的信息查询任务。待进一步解决非特定人的连续语音识别问题后,可用于特定主题的公用信息查询系统。相似文献

12.

基于随机轨迹模型的汉语连续语音识别方法研究 总被引：1，自引：0，他引：1

马小辉富煜清陆佶人龚一凡《声学学报》1997,(2)

本文在指出隐马尔可夫模型（HMM）不合理假设的基础上,介绍了随机轨迹模型（STM）的理论机制及优越性。随机轨迹模型将语音基元的声学观察表示为参数空间中轨迹的聚类,并将轨迹建模为状态随机序列概率密度函数的混合,该模型可以克服HMM的不合理假设,在理论上更合理。根据STM的特点及汉语语音特色,本文对汉语连续语音识别基元的选取进行了讨论,提出了音素类单元作为识别系统的识别基元。基于STM的汉语连续语音识别的实验结果证明了STM的有效性和音素类单元的一致性。相似文献

13.

采用损失函数和声学特征切分声韵母的方法

下载免费PDF全文

李皓唐朝京《声学学报》2012,37(3):339-345

为实现鲁棒的声韵母切分,以满足大词汇量连续语音识别系统的需求,提出一种建立损失函数,并利用浊音的“准”周期性和声母时长进行声韵母切分的方法。首先计算语音的自相关函数,接着建立代价损失函数,对计算结果采用动态规划方法检测浊音,然后根据声母时长分布规律确定声母的检测范围,最后在检测范围内对浊音段起始点前后采用听觉事件检测方法分割出声韵母。实验结果表明,采用动态规划方法相对于阈值方法提高了浊音段的检测性能,在浊音段的基础上对声韵母进行切分能够提高切分的正确率,减少噪声及汉语音变现象的影响,切分性能受声母发音方式影响较小。相似文献

14.

早晚期混响划分对理想比值掩蔽在语音识别性能上的影响 总被引：2，自引：0，他引：2

高飞黄哲莹王子腾李军锋颜永红《声学学报》2019,44(4):788-795

真实环境中存在的噪声和混响会降低语音识别系统的性能。封闭空间中的混响包括直达声、早期反射和后期混响3部分,它们对语音识别系统具有不同的影响.我们研究了早期反射和后期混响的不同划分方法,以其中的早期反射为目标语音,计算出了不同的理想比值掩蔽并研究了它们对语音识别系统性能的影响;在此基础上,利用双向长短时记忆网络(BLSTM)估计理想比值掩蔽,测试它们对语音识别系统性能的影响.实验结果表明,基于Abel早期反射和后期混响的划分方法,理想比值掩蔽能够降低词错误率约2.8%;基于BLSTM的估计方法过低估计了理想比值掩蔽,未能有效提高语音识别系统的性能。相似文献

15.

汉语连续语音识别中语音处理和语言处理统合方法的研究 总被引：5，自引：1，他引：4

赵力邹采荣吴镇扬《声学学报》2001,(1)

提出了一种语音处理和语言处理按帧同步统合的汉语连续语音识别方法。该方法把基于ＣＦＧ语言模型和ＴｏｐＤｏｗｎ型句法分析器的语言处理过程结合进基于有限状态自动机控制的ＯｎｅＰａｓｓＶｉｔｅｒｂｉ语音识别算法中,实现了帧同步的语音语言处理的统合。为完成帧同步句法分析的单词预测和语音识别过程的结合,本文提出了一种类似于Ｅａｒｌｅｙ法的ＴｏｐＤｏｗｎ型句法分析方法以及ＯｎｅＰａｓｓＶｉｔｅｒｂｉ算法中的有限状态自动机动态展开建立法．６０个音素单位和８个声调单位的ＨＭＭ作为识别用基元模型被用于识别实验,识别结果表明,对于一个识别困难度（Ｐｅｒｐｌｅｘｉｔｙ）为２７．３的任务（Ｔａｓｋ）的识别系统,利用本文提出的方法,１０名话者发音的１０７０句子的平均识别率达到９４．４％,比利用传统的基于单词确认（ＷｏｒｄＳｐｏｔｔｉｎｇ）以及从单词串（列）（ｌａｔｔｉｃｅ）进行句法分析的阶层性语音·语言统合方式的识别率提高约８％．相似文献

16.

几种高鲁棒性通道及说话人自适应语音识别算法研究 总被引：1，自引：1，他引：0

陈景东姚磊黄泰翼《声学学报》1998,(6)

鲁棒性问题是决定语音识别技术能否在实际中得以应用和推广的关键问题之一。概括起来说，导致语音识别系统性能变坏的原因大体上来自三个方面，即噪声（加性噪声、卷积噪声）、信道变化和不同的讲话者（不同的声道形状、不同的发育方式等）。本文对三种高鲁律性自适应语音识别方法进行了研究和改进，并对它们的性能进行了比较，这三种方法分别是VQ码本自适应法、HMM参数自适应法和基于正则相关分析的谱变换补偿方法。实验结果表明，这三种方法都能提高非特定人语音识别系统对信道以及说话人的鲁棒性，而且基于正则相关分析的稻变换补偿方法具有最好的性能，它能够补偿由三种失真源同时引起的训练条件与测试条件之间的不匹配，因此适合作为一种通用的自适应方法。相似文献

17.

汉语耳语音孤立字识别研究 总被引：6，自引：0，他引：6

下载免费PDF全文

杨莉莉林玮徐柏龄《应用声学》2006,25(3):187-192

耳语音识别有着广泛的应用前景,是一个全新的课题.但是由于耳语音本身的特点,如声级低、没有基频等,给耳语音识别研究带来了困难.本文根据耳语音信号发音模型,结合耳语音的声学特性,建立了一个汉语耳语音孤立字识别系统.由于耳语音信噪比低,必须对其进行语音增强处理,同时在识别系统中应用声调信息提高了识别性能.实验结果说明了MFCC结合幅值包络可作为汉语耳语音自动识别的特征参数,在小字库内用HMM模型识别得出的识别率为90.4%. 相似文献

18.

基于发音特征的汉语普通话语音声学建模 总被引：3，自引：0，他引：3

张晴晴潘接林颜永红《声学学报》2010,35(2):254-260

将表征汉语普通话语音特点的发音特征引入汉语普通话语音识别的声学建模中,根据普通话发音特点,确定了用于区别普通话元音、辅音以及声调信息的9种发音特征,并以此为目标值训练神经网络得到语音信号属于各类发音特征的后验概率,将此概率作为语音识别的输入特征建立声学模型。在汉语普通话非特定人大词表自然口语对话识别系统中进行了实验验证,并与基于频谱特征的声学模型进行了比较,在相同解码速度下,由此方法建立的声学模型汉字错误率相对下降6.8%;将发音特征和频谱特征进行了融合实验,融合以后的识别系统相对基于频谱特征系统的汉字错误率相对下降10.1%。上述结果表明,基于发音特征的声学模型更加有效的实现了对语音特性的表征,通过利用发音特征和频谱特征的互补性,能够进一步实现对语音识别性能的提高。相似文献

19.

汉语塞音选择性特征自动萃取的小波变换方法 总被引：1，自引：0，他引：1

杜利民侯自强《声学学报》1996,(6)

本文提出了汉语语音导引特征的概念，讨论了语音导引特征在自动语音识别中用于导引匹配搜索的运用方式和重要作用；提出并设计了汉语塞音选择性特征自动萃取的小波变换方法和数字信号处理算法。本文方法和算法从声学信号处理和检测的角度，将汉语清辅音声波输入信号自动分为塞音子集ＢＤＧ：｛ｂ，ｄ，ｇ｝、塞音子集ＺＺＨＪＧＰＴｃＣＨＱＫ：｛ｚ，ｚｈ，ｊ，ｇ，ｐ，ｔ，ｃ，ｃｈ，ｑ，ｋ｝和擦音集ＦｓＳＨｈＸ：｛ｆ，ｓ，ｓｈ，ｘ，ｈ｝；对输入的合清辅音的音节，计算检测并输出汉语自动语音识别系统可以利用的清辅音类属标记ｂ．ｄ．ｇ、ＳＴＯＰ／ＢＤ和ｆ．ｓ．ｓｈ．ｘ．ｈ以及它们的音段起始时标；从声学信息计算检测的角度为汉语自动语音识别系统提供一种新的“从粗到细”的辅助匹配结构。算法可用性模拟实验采用实际语音的数据库数据，以手工标注信息作为自动检测分类正确与否的对比标准。对１２６７个汉语全音节中，总数９１３个待分类清辅音的初步分类结果表明：正确分类率分别为ｂ．ｄ．ｇ：９６．１％，ＳＴＯＰ／ＢＤ：９５．１％和ｆ．ｓ．ｓｈ．ｘ．ｈ：８９．０％，总体平均正确分类率为９３．６％。相似文献

20.

低信噪比下采用感知语谱结构边界参数的语音端点检测算法

吴迪赵鹤鸣陶智张晓俊肖仲喆许宜申《声学学报》2014,39(3):392-399

提出了一种采用感知语谱结构边界参数(PSSB)的语音端点检测算法,用于在低信噪比环境下的语音信号预处理。在对含噪语音进行基于听觉感知特性的语音增强之后,针对语音信号的连续分布特性与残留噪声的随机分布特性之间的不同点,对增强后语音的时-频语谱进行二维增强,从而进一步突出连续分布的纯净语音的语谱结构。通过对增强后语音语谱结构的二维边界检测,提出PSSB参数,并用于端点检测。实验结果表明,在白噪声-10 dB到10 dB的各种信噪比环境下,采用PSSB参数的端点检测算法,相对于其它端点检测算法,更有效地检测出语音的端点。在-10 dB的极低信噪比下,提出的方法仍然有75.2%的正确率。采用PSSB参数的端点检测算法,更适合于低信噪比白噪声环境下的语音端点检测。相似文献