首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
陈立伟  张晔 《应用声学》2006,25(2):90-95
研究了一种非齐次隐马尔可夫模型(Inhomogeneous Hidden Markov Model),然后将自组织特征映射神经网络与这种非齐次隐马尔可夫模型相结合,训练出抗噪声的HMM模型,并应用该混合模型进行语音识别。实验结果表明,该模型适合于对噪声背景下的语音进行识别。该模型具有更好的抗噪鲁棒性,在信噪比较低的情况下(5dB-10dB),识别率可以提高5%左右。  相似文献   

2.
混合双语语音识别的研究   总被引:1,自引:0,他引:1  
随着现代社会信息的全球化,双语以及多语混合的语言现象日趋普遍,随之而产生的双语或多语语音识别也成为语音识别研究领域的热门课题。在双语混合语音识别中,主要面临的问题有两个:一是在保证双语识别率的前提下控制系统的复杂度;二是有效处理插入语中原用语引起的非母语口音现象。为了解决双语混合现象以及减少统计建模所需的数据量,通过音素混合聚类方法建立起一个统一的双语识别系统。在聚类算法中,提出了一种新型基于混淆矩阵的两遍音素聚类算法,并将该方法与传统的基于声学似然度准则的聚类方法进行比较;针对双语语音中非母语语音识别性能较低的问题,提出一种新型的双语模型修正算法用于提高非母语语音的识别性能。实验结果表明,通过上述方法建立起来的中英双语语音识别系统在有效控制模型规模的同时,实现了同时对两种语言的识别,且在单语言语音和混合语言语音上的识别性能也能得到有效保证。   相似文献   

3.
黄永明  章国宝  董飞  李悦 《声学学报》2013,38(2):231-240
提出了层叠式“产生/判别”混合模型的语音情感识别方法。首先,提取63维语句级特征,运用Fisher从中选择12个最佳的语句级特征,建立小波神经网络(WNN)的层叠式产生式模型进行语音情感识别;然后提取69维帧级特征,采用SFS选择出待使用的8维特征,将高斯混合模型(GMM)进行多维概率输出,建立层叠式“产生/判别”混合模型进行语音情感识别。实验结果显示:(1)层叠式“产生/判别”混合模型较单独WNN、GMM、HMM (隐马尔可夫模型)、SVM (支持向量机)的识别率要高;(2)层叠式“产生/判决式”混合模型识别率较基于WNN的层叠产生式模型高;(3) M=13,D维GMM-MAP/SVM (MAP,最大后验概率)串联融合模型为最优的层叠式“产生/判别”混合模型,能获得最高85.1%的识别率。   相似文献   

4.
周璐璐  邓江洪 《应用声学》2014,22(10):3267-32693273
针对智能机器人在非特定人语音识别中识别率偏低的问题,提出了一种双门限的端点检测算法,精确地检测出了语音端点,对分形维数和Mel频率倒谱系数(MFCC)进行结合,同时基于隐马尔可夫(HMM)模型,提出了智能机器人命令识别系统;在实验室环境下,利用Cool Edit软件录制了5男5女的语音,采样率为8 kHz,精度为16位,内容为5个命令词,每个词均被采集6次,将每人的前3次发音作为模板语音,后3次发音作为测试语音,实验结果表明,系统识别率可以达到85%以上,MFCC与分形维数混合的语音特征参数的算法提高了系统识别率,优化了系统性能;该方法用于非特定人语音智能识别是可行的、有效的。  相似文献   

5.
为减少语音识别中声学模型的参数量,提高参数训练的鲁棒性,提出了一种基于升值法模糊聚类的异音混合共享模型。在决策树结构的基础上,通过对初始三音子模型的高斯函数做模糊聚类得到该模型的高斯码本,并进一步通过对模型的方差做模糊聚类完成对方差的共享。识别实验结果表明,与相近高斯数量的传统异音混合共享模型相比,提出的异音混合共享模型的高斯权值数减少77.59%时,识别率提高7.92%;与相近参数量的三音子模型相比,方差共享的异音混合模型误识率降低了3.01%。  相似文献   

6.
常用的梅尔倒谱系数结合高斯混合模型(MFCC+GMM)方法的鸟鸣声识别技术难适应噪声环境,模型难以收敛,且计算复杂度高。该文提出一种融合声纹信息的能量谱图的鸟类识别方法(VPS-BR),该方法利用鸟类鸣声在能量谱图上所表现的多维差异性,定量识别鸣声声纹特征。通过对分贝能量进行颜色映射得到能量谱图,提取其视觉特征所表达的声学特征,分析归纳得到鸟类特有鸣声模式。在特征提取步骤中,选用识别速度快的局部二值模式、识别鲁棒性高的方向梯度直方图两个参数表征鸟鸣声谱图的边缘声纹;在识别步骤中,用局部二值模式和方向梯度直方图两种特征分别与支持向量机、K最近邻和随机森林3种分类器算法进行两两组合构建识别模型测试。对15种原始带噪鸟类鸣声数据集进行交叉验证,VPS-BR模型的平均识别率比MFCC+GMM组合模型高出11.3%,方向梯度直方图特征与K最近邻分类器的组合模型识别率达90.5%,表现出较好的抗噪性能和识别性能。最后针对样本数据集缺乏问题,使用生成对抗网络进行图像增强,进一步将识别率提升1.48%。  相似文献   

7.
顾晓江  赵鹤鸣  吕岗 《声学学报》2012,37(2):198-203
为了提高信道差异下短时耳语说话人的识别率,提出了一种在模型域和特征域进行混合补偿的方法。该方法首先在模型训练阶段以联合因子分析法为基础,通过估计训练语音的说话人空间和信道空间,提取出说话人因子,消除信道因子,其次在测试阶段,将测试语音的信道因子映射到特征空间,实施特征补偿,从而在模型和特征两方面去除信道信息,提高识别率。实验结果显示,在三种不同的信道训练环境下,混合补偿法都取得了相似的识别率,且新方法对短时耳语音的测试效果要优于联合因子分析法。   相似文献   

8.
景春进  陈东东  周琳琦 《应用声学》2014,22(8):2571-2573
针对舰艇指挥训练系统的特点,提出了一种利用语音识别技术提高其训练效率的方法;首先分析了舰艇指挥指令的语言特点,然后研究了基于Sphinx平台的汉语连续语音识别的相关问题,包括声学模型的训练、语言模型的训练及语音识别引擎等;最后设计并实现了一个非特定人,中等专用词汇量的连续汉语语音识别系统;实验采用了一定数量的数字和专用词汇进行验证,结果表明,经过声学模型训练后,该系统的识别率有较大提高;该方法对提高舰艇指挥训练系统的自动化水平具有一定的指导意义。  相似文献   

9.
探讨了连续隐马尔可夫模型的基本原理及其在汉语数码语音识别中的应用,实现了一个汉语数码语音识别系统,其正确识别率达到99%以上。  相似文献   

10.
首先介绍了帧同步混合小波包的分析方法。该方法结合了小波包时频窗口可变的特点和STFT的分帧处理形式。它既能够保证语音信号处理中帧长的要求,即可实时处理,义能获得对信号频域上的最佳分解,是一种类似FFT的小波包的快速算法。在此基础上,应用该方法模拟了听觉模型,并运用于语音增强。实验表明,即使在-5 dB低信噪比的条件下,也能获得良好的除噪效果和听觉效果。该方法还可运用于语音的编码、合成和识别等领域。  相似文献   

11.
王瑶  刘志明  万亚平  欧阳纯萍 《强激光与粒子束》2020,32(10):106001-1-106001-8
针对新兴的能谱核素识别方法在混合放射性核素的噪声环境中存在识别速度慢、准确率较低等问题,提出了基于长短时记忆神经网络(LSTM)的能谱核素识别方法。实验使用溴化镧(LaBr3)晶体探测器,分别对环境中60Co、137Cs放射性源分组测量得到能谱数据集,首先使用数据平滑方法和归一化方法进行数据预处理,然后将能谱数据按时间序列分组以获得可用的输入序列数组,最后训练LSTM模型得到预测结果。通过基于BP神经网络和卷积神经网络(CNN)的两个能谱识别模型进行对比,得到在测试集中平均识别率分别为83.45%和86.21%,而LSTM能谱识别模型平均识别率为93.04%,实验结果表明,该能谱模型在核素识别效果中表现较好,可用于快速的能谱核素识别设备上。  相似文献   

12.
提出在参数的提取过程中用不同的感知规整因子对不同人的参数归一化,从而实现在非特定人语音识别中对不同人的归一化处理。感知规整因子是基于声门上和声门下之间耦合作用产生声门下共鸣频率来估算的,与采用声道第三共振峰作为基准频率的方法比较,它能较多的滤除语义信息的影响,更好地体现说话人的个性特征。本文提取抗噪性能优于Mel倒谱参数的感知最小方差无失真参数作为识别特征,语音模型用经典的隐马尔可夫模型(HMM)。实验证明,本文方法与传统的语音识别参数和用声道第三共振峰进行谱规整的方法相比,在干净语音中单词错误识别率分别下降了4%和3%,在噪声环境下分别下降了9%和5%,有效地改善了非特定人语音识别系统的性能。   相似文献   

13.
汉语耳语音孤立字识别研究   总被引:6,自引:0,他引:6       下载免费PDF全文
杨莉莉  林玮  徐柏龄 《应用声学》2006,25(3):187-192
耳语音识别有着广泛的应用前景,是一个全新的课题.但是由于耳语音本身的特点,如声级低、没有基频等,给耳语音识别研究带来了困难.本文根据耳语音信号发音模型,结合耳语音的声学特性,建立了一个汉语耳语音孤立字识别系统.由于耳语音信噪比低,必须对其进行语音增强处理,同时在识别系统中应用声调信息提高了识别性能.实验结果说明了MFCC结合幅值包络可作为汉语耳语音自动识别的特征参数,在小字库内用HMM模型识别得出的识别率为90.4%.  相似文献   

14.
采用归一化补偿变换的与文本无关的说话人识别   总被引:10,自引:0,他引:10  
在噪声环境下,特别是当说话人识别最常用的模型——高斯混合模型(GMM)失配的情况下,需要对其输出帧似然概率的统计特性进行补偿。文章根据说话人识别的声学特性,提出了一种非线性变换方法——归一化补偿变换。理论分析和实验结果表明:与常用的最大似然(ML)变换相比,该变换能够提高系统识别率,最大可达3.7%,同时可降低误识率,最大可达45.1%。结果说明归一化补偿变换方法基本克服了在与文本无关说话人识别系统中,当说话人的个性特征不断变化、语音与噪声不能很好地分离或者降噪算法对语音有损伤、模型不能很好地匹配时,需要对模型输出的似然概率(得分)进行补偿的局限。这也说明对模型输出的似然概率进行处理是降低噪声和干扰的影响、提高说话人识别率的有效方法。  相似文献   

15.
从语音信号产生的数字模型出发,对1~10这10个汉语数字的语音信号进行预处理,提取了Mel频率倒谱系数,并将特征参数序列进行非线性时间规整为固定的帧数,使用BP神经网络的训练和识别,研究该方法的可行性和有效性。结果表明,在噪声环境下1,7,9的识别率为80%,而2,3,4,5,6,8,10的识别率都是100%,识别率主要受噪声、不同人的发音不同等因素的影响。该方法具有可行性强、识别率高的特点,可应用于语音识别系统。  相似文献   

16.
听觉模型已应用于语音信号处理的许多方面,并已取得了较好的结果。论文根据目前应用较为广泛的听觉模型,提出了模型中各部分的逆变换。首先通过对自相关图谱逆变换并经迭代运算重构相位信息恢复神经发放率,再经半波整流逆运算恢复负半部分信号,最后对描述内毛细胞、突触模型的相关方程进行逆运算和Gammatone逆滤波,构成整个听觉模型的反演方法。作为应用论文提出了一种基于听觉模型逆变换的含噪语音增强方法。实验结果表明,该方法对含噪语音有很好的降噪效果,特别是当信噪比较低时,该方法较常用的方法更为有效。论文提出的听觉模型逆变换方法可应用于语音增强等领域。  相似文献   

17.
有效特征的选取一直都是语音情感识别算法的关键。为此,针对语音情感特征选择与构建的问题,一种仿选择性注意机制的语音情感识别算法被提出。考虑到语音信号的时频特性,算法首先计算语音信号的语谱图;其次,模仿选择性注意机制,计算语谱图的颜色、方向和亮度特征图,归一化后形成特征矩阵;然后,将特征矩阵重排列并进行PCA降维,形成情感识别特征向量;最后,利用改进的支持向量机分类方法进行语音情感识别。对愤怒、恐惧、高兴、悲伤和惊奇5种情感的识别实验显示,基于选择性注意的方法能够获得较好的识别效果,平均识别率为85.44%。相比于韵律特征和音质特征,语音情感识别率至少提高10%;相比于其它语谱特征,识别率提高7%左右。   相似文献   

18.
提出了一种既符合人耳听觉特性又具有良好抗噪性的语音特征分析方法。首先将单边自相关函数序列进行时间方向的平滑处理,提高单边自相关函数的抗噪性,然后用平滑后的单边自相关函数序列代替原信号进行频率规整的LPC分析,最后经倒谱变换得到该特征参数。数字语音识别实验证明:利用该特征参数的语音识别系统的识别性能优于MEL倒谱系数、LPC倒谱系数等传统的语音特征参数。  相似文献   

19.
研究用短波语音通话携带的飞机舱室噪声对飞机类型进行识别的方法。分析了飞机舱室内噪声在短波信道和语音通话干扰下的物理特性,定义了估计语音段的飞机噪声信噪比的公式,提出了自适应的抑制语音增强飞机噪声的模型,通过CZT变换分别提取目标信号不同频段的功率谱密度级特征,并设计了用支持向量机进行分类识别的二叉分类树。对8类现场实测数据进行实验:增强后语音段的平均信噪比提高约22 dB,分类树对语音应答间隔噪声、语音段信号和增强后的信号的平均识别率分别为82.79%,15.25%,50.18%。实验表明:应答间隔噪声可用于飞机类型识别;语音抑制算法带来较大的信噪比和识别率增益,证明语音段蕴含有助于飞机类型识别的重要信息,可为后续的研究奠定基础。   相似文献   

20.
汉语连续语音识别中语音处理和语言处理统合方法的研究   总被引:5,自引:1,他引:4  
提出了一种语音处理和语言处理按帧同步统合的汉语连续语音识别方法。该方法把基于 CFG语言模型和 Top Down型句法分析器的语言处理过程结合进基于有限状态自动机控制的 One Pass Viterbi语音识别算法中,实现了帧同步的语音语言处理的统合。为完成帧同步句法分析的单词预测和语音识别过程的结合,本文提出了一种类似于Earley法的 TopDown型句法分析方法以及 One Pass Viterbi算法中的有限状态自动机动态展开建立法. 60个音素单位和 8个声调单位的 HMM作为识别用基元模型被用于识别实验,识别结果表明,对于一个识别困难度(Perplexity)为27.3的任务(Task)的识别系统,利用本文提出的方法,10名话者发音的 1070句子的平均识别率达到 94.4%,比利用传统的基于单词确认(Word Spotting)以及从单词串(列)(lattice)进行句法分析的阶层性语音·语言统合方式的识别率提高约8%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号