首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
吕钊  吴小培  张超  李密 《声学学报》2010,35(4):465-470
提出了一种基于独立分量分析(ICA)的语音信号鲁棒特征提取算法,用以解决在卷积噪声环境下语音信号的训练与识别特征不匹配的问题。该算法通过短时傅里叶变换将带噪语音信号从时域转换到频域后,采用复值ICA方法从带噪语音的短时谱中分离出语音信号的短时谱,然后根据所得到的语音信号短时谱计算美尔倒谱系数(MFCC)及其一阶差分作为特征参数。在仿真与真实环境下汉语数字语音识别实验中,所提算法相比较传统的MFCC其识别正确率分别提升了34.8%和32.6%。实验结果表明基于ICA方法的语音特征在卷积噪声环境下具有良好的鲁棒性。   相似文献   

2.
提出在参数的提取过程中用不同的感知规整因子对不同人的参数归一化,从而实现在非特定人语音识别中对不同人的归一化处理。感知规整因子是基于声门上和声门下之间耦合作用产生声门下共鸣频率来估算的,与采用声道第三共振峰作为基准频率的方法比较,它能较多的滤除语义信息的影响,更好地体现说话人的个性特征。本文提取抗噪性能优于Mel倒谱参数的感知最小方差无失真参数作为识别特征,语音模型用经典的隐马尔可夫模型(HMM)。实验证明,本文方法与传统的语音识别参数和用声道第三共振峰进行谱规整的方法相比,在干净语音中单词错误识别率分别下降了4%和3%,在噪声环境下分别下降了9%和5%,有效地改善了非特定人语音识别系统的性能。   相似文献   

3.
周璐璐  邓江洪 《应用声学》2014,22(10):3267-32693273
针对智能机器人在非特定人语音识别中识别率偏低的问题,提出了一种双门限的端点检测算法,精确地检测出了语音端点,对分形维数和Mel频率倒谱系数(MFCC)进行结合,同时基于隐马尔可夫(HMM)模型,提出了智能机器人命令识别系统;在实验室环境下,利用Cool Edit软件录制了5男5女的语音,采样率为8 kHz,精度为16位,内容为5个命令词,每个词均被采集6次,将每人的前3次发音作为模板语音,后3次发音作为测试语音,实验结果表明,系统识别率可以达到85%以上,MFCC与分形维数混合的语音特征参数的算法提高了系统识别率,优化了系统性能;该方法用于非特定人语音智能识别是可行的、有效的。  相似文献   

4.
从语音信号产生的数字模型出发,对1~10这10个汉语数字的语音信号进行预处理,提取了Mel频率倒谱系数,并将特征参数序列进行非线性时间规整为固定的帧数,使用BP神经网络的训练和识别,研究该方法的可行性和有效性。结果表明,在噪声环境下1,7,9的识别率为80%,而2,3,4,5,6,8,10的识别率都是100%,识别率主要受噪声、不同人的发音不同等因素的影响。该方法具有可行性强、识别率高的特点,可应用于语音识别系统。  相似文献   

5.
为了提高感知线性预测系数(PLP)在噪声环境下的识别性能,使用子带能量偏差减的方法,提出了一种基于子带能量规整的感知线性预测系数(SPNPLP)。PLP有效地集中了语音中的有用信息,在安静环境下自动语音识别系统使用PLP可以取得良好的识别率;但是在噪声环境中其识别性能急剧下降。通过使用能量偏差减的方法对PLP的子带能量进行规整,抑制背景噪声激励,提出了SPNPLP,增强自动语音识别系统在噪声环境下的鲁棒性。在一个语法大小为501的孤立词识别任务和一个大词表连续语音识别任务上做了测试,SPNPLP在这两个任务上,与PLP相比,汉字识别精度分别绝对提升了11.26%和9.2%。实验结果表明SPNPLP比PLP具有更好的噪声鲁棒性。   相似文献   

6.
为减少语音识别中声学模型的参数量,提高参数训练的鲁棒性,提出了一种基于升值法模糊聚类的异音混合共享模型。在决策树结构的基础上,通过对初始三音子模型的高斯函数做模糊聚类得到该模型的高斯码本,并进一步通过对模型的方差做模糊聚类完成对方差的共享。识别实验结果表明,与相近高斯数量的传统异音混合共享模型相比,提出的异音混合共享模型的高斯权值数减少77.59%时,识别率提高7.92%;与相近参数量的三音子模型相比,方差共享的异音混合模型误识率降低了3.01%。  相似文献   

7.
汉语耳语音孤立字识别研究   总被引:6,自引:0,他引:6       下载免费PDF全文
杨莉莉  林玮  徐柏龄 《应用声学》2006,25(3):187-192
耳语音识别有着广泛的应用前景,是一个全新的课题.但是由于耳语音本身的特点,如声级低、没有基频等,给耳语音识别研究带来了困难.本文根据耳语音信号发音模型,结合耳语音的声学特性,建立了一个汉语耳语音孤立字识别系统.由于耳语音信噪比低,必须对其进行语音增强处理,同时在识别系统中应用声调信息提高了识别性能.实验结果说明了MFCC结合幅值包络可作为汉语耳语音自动识别的特征参数,在小字库内用HMM模型识别得出的识别率为90.4%.  相似文献   

8.
王栋  司纪锋 《应用声学》2018,37(2):252-259
针对小数据量的海洋动物声信号混合识别,将声信号同态分析过程中的线性频率转换为Mel频率,得到模拟人耳听觉特性的Mel频率倒谱系数作为声信号的特征。按照声信号所属的物种建立特征模板,使用动态时间规整算法对待识别特征进行分类识别,并对特征库和识别算法进行优化。分别提取了6种鱼类、3种虾类、12种鲸类的Mel频率倒谱系数,为每个物种建立特征模板。分3次对3种、5种、6种鱼类进行识别,分别获得了100%、96.25%、94.68%的识别率。对6种鱼类、3种虾类、12种鲸类共21个物种进行混合识别,总识别率由87.56%提升至优化后的88.96%。实验结果表明,基于Mel频率倒谱系数和动态时间规整算法的海洋动物声信号混合识别能够在小数据量时获得较高的识别率,优化后的特征库和识别算法能够提升识别率。  相似文献   

9.
针对支持向量机(Support Vector Machine,SVM)的参数优化问题,提出了一种改进的混合蛙跳算法(Improved Shuffled Frog Leaping Algorithm,Im-SFLA),提高了其在实用语音情感识别中的学习能力。首先,我们在SFLA中引入了模拟退火(Simulated Annealing,SA)、免疫接种(Immune Vaccination,IV)、高斯变异和混沌扰动算子,平衡了搜索的高效性和种群的多样性;第二,利用Im-SFLA优化SVM的参数,提出了一种Im-SFLA-SVM方法;第三,分析了烦躁等实用语音情感的声学特征,重点分析了基音、短时能量、共振峰和混沌特征随情感类别的变化特性,构建出144维的情感特征向量并采用LDA降维到4维;最后,在实用语音情感数据库上测试了算法性能,将提出的算法与混合蛙跳算法(Shuffled Frog Leaping Algorithm,SFLA)优化SVM参数的方法(SFLA-SVM方法)、粒子群优化(Particle Swarm Optimization,PSO)算法优化SVM参数的方法(PSO-SVM方法)、基本SVM方法、高斯混合模型(Gaussian Mixture Model,GMM)方法和反向传播(Back Propagation,BP)神经网络法等进行对比。实验结果表明,采用Im-SFLA-SVM方法的平均识别率达到77.8%,分别高于SFLA-SVM方法、PSO-SVM方法、SVM方法、GMM方法和BP神经网络法各1.7%,2.7%,3.4%,4.7%,7.8%,并且对于烦躁这种实用情感的识别率提高效果最为明显,从而证实了Im-SFLA是一种有效的SVM参数选择方法,并且Im-SFLA-SVM方法能显著提升实用语音情感的识别率。   相似文献   

10.
研究用短波语音通话携带的飞机舱室噪声对飞机类型进行识别的方法。分析了飞机舱室内噪声在短波信道和语音通话干扰下的物理特性,定义了估计语音段的飞机噪声信噪比的公式,提出了自适应的抑制语音增强飞机噪声的模型,通过CZT变换分别提取目标信号不同频段的功率谱密度级特征,并设计了用支持向量机进行分类识别的二叉分类树。对8类现场实测数据进行实验:增强后语音段的平均信噪比提高约22 dB,分类树对语音应答间隔噪声、语音段信号和增强后的信号的平均识别率分别为82.79%,15.25%,50.18%。实验表明:应答间隔噪声可用于飞机类型识别;语音抑制算法带来较大的信噪比和识别率增益,证明语音段蕴含有助于飞机类型识别的重要信息,可为后续的研究奠定基础。   相似文献   

11.
有效特征的选取一直都是语音情感识别算法的关键。为此,针对语音情感特征选择与构建的问题,一种仿选择性注意机制的语音情感识别算法被提出。考虑到语音信号的时频特性,算法首先计算语音信号的语谱图;其次,模仿选择性注意机制,计算语谱图的颜色、方向和亮度特征图,归一化后形成特征矩阵;然后,将特征矩阵重排列并进行PCA降维,形成情感识别特征向量;最后,利用改进的支持向量机分类方法进行语音情感识别。对愤怒、恐惧、高兴、悲伤和惊奇5种情感的识别实验显示,基于选择性注意的方法能够获得较好的识别效果,平均识别率为85.44%。相比于韵律特征和音质特征,语音情感识别率至少提高10%;相比于其它语谱特征,识别率提高7%左右。   相似文献   

12.
蔡德和 《应用声学》1996,15(1):39-45
本文主要研究:以音素为识别基元,运用语音学知识,对非特定人的普通话复合元音进行识别。其特点是音素识别由神经网络(NN)完成,为了便于利用语音知识NN输入层的刺激采用语音的功率谱,用单元音训练的NN识另非特定人的普通话复合元音,识别率是54%。而运用语音学知识后,其识别率提高到90%。  相似文献   

13.
基于基音参数规整及统计分布模型距离的语音情感识别   总被引:17,自引:0,他引:17  
提出一种根据基音提取的频率分辨率确定自适应窗口的改进Parzen窗方法估计基音概率密度,兼顾了基音统计分布模型在低频段的高分辨率和高频段的平滑;提出利用不同性别的基音分布规律的性别区分算法,对于长句可以达到98%的识别率;通过分析基音均值、方差、统计分布模型在性别上的差异,对基音参数进行基于性别差异的规整;引入规整后的基音均值和基音方差,以及基音统计分布模型距离作为情感特征参数;最后利用K最近邻方法对汉语情感语料进行识别。利用常规方法提取的参数最后得到的识别率为73.8%,而使用经过性别差异规整的基音参数和基音统计分布距离的识别率提高到 81%。  相似文献   

14.
语音识别中多种特征信息综合利用的方法   总被引:3,自引:1,他引:2  
在基于特征的语音识别研究中,往往会发现其中有些特征的识别性能对一些音比另一些音更好,而另一些特征却与此相反。它们在一些音的识别特性上存在着一定程度的互补。本文基于目前话音识别研究主要方法之一的HMMM识别方法,提出了三种有效综合利用这种互补关系提高HMM识别性能的方法。作者分别称它们为顶尖参数法,全部参数法和最可靠参数法。这三种方法在多发音人汉语数字的DHMM/VQ语音识别中,分别将识别率由89%提高到了92.3%、95.7%、94.3%。本文将详细介绍这三种方法,及其在多发育人汉语数字的DHMM/VQ语音识别中试验结果极及其分析。  相似文献   

15.
分析了由于说话人受到重力加速度变化而产生的变异语音(应力影响下的变异语音)的特点,把变异语音分成主体部分和变异部分两方面进行研究,提出一种动态时间规正与差别子空间相结合的孤立词语音识别方法。该方法构造差别子空间去除变异部分的影响,利用语音的主体部分进行识别,采用动态时间规正技术对语音特征矢量进行长度对齐,并提出了相应的判别标准。实验结果表明,本方法对应力影响下的变异语音具有良好识别效果,对15个词的小词表,系统平均识别率达到98.3%,与正常语音的识别率基本相当。克服了话者在应力影响下由于心理紧张和生理情况的变化,语音发生严重变异,导致常规语音识别系统性能急剧下降的缺点。  相似文献   

16.
为了提高汉语语音的谎言检测准确率,提出了一种对信号倒谱参数进行稀疏分解的方法。首先,采用小波包滤波器组对语音信号进行多频带划分,求得子频带对数能量并进行离散余弦变换以提取小波包频带倒谱系数,结合梅尔频率谱系数得到倒谱参数;其次,依据K-奇异值分解方法分别利用说谎和非说谎两种状态下的语音倒谱参数集训练得到过完备混合字典,在此字典上根据正交匹配追踪算法对参数集进行稀疏编码提取稀疏特征;最终进行多种分类模型下的识别实验·实验结果表明,稀疏分解方法相比传统参数降维方法具有更好的优化性能,本文推荐的稀疏谱特征最佳识别率达到78.34%,优于其他特征参数,显著提高了谎言检测识别准确率。   相似文献   

17.
栽培和野生中药材灯盏花的近红外光谱鉴别模型   总被引:3,自引:1,他引:2  
分别在2台傅里叶变换近红外光谱仪上采集了43个栽培和野生中药材灯盏花样品的近红外漫反射光谱,提取光谱信息的15个主成分,方差贡献率达到99%以上。以20个灯盏花样品作为建模集,15个主成分作为网络学习输入层的15个节点,在2台仪器上用2套光谱分别建立了识别栽培和野生灯盏花样品的BP-神经网络模型,并对预测集的23个样品用于实际鉴别分析。两台仪器上的建模集样品模型回代正确识别率均为100%,预测集样品的正确识别率分别为100%和95.7%,结果表明,利用近红外光谱法进行栽培和野生中药材灯盏花的快速鉴别是可行的。  相似文献   

18.
语音情感识别在许多领域具有重要研究价值,不同声学情感特征在使用不同分类器进行分类时,识别效果具有明显差异。与语音情感有关的声学特征包括谱特征、韵律学特征、音质特征。该文提出一种特征融合的方法,将3种声学特征中具有最好识别能力的特征进行融合:保留在实验中表现稳定且有较高识别率的谱特征的全部特征,提取韵律学、音质特征的相关统计量作为辅助特征融合于谱特征中。实验表明,该文所提出的融合特征在使用同一分类器进行分类时,识别率优于单一特征;当使用不同分类器时,融合特征依然具有较好的识别能力,且识别性能稳定,3个数据集上均有较好的识别率,基本实现跨数据集识别。  相似文献   

19.
探讨了连续隐马尔可夫模型的基本原理及其在汉语数码语音识别中的应用,实现了一个汉语数码语音识别系统,其正确识别率达到99%以上。  相似文献   

20.
提出了基于发音特征单个维度的置信度算法,并基于此对发音特征的各个维度展开分析.分析不仅验证了融合的必要性,同时也展示了发音特征各维度之间以及和隐马尔可夫模型之间的大量冗余.为了去除冗余,提出了用子集选择的方法进行优化.对比所有都用的情况,基于发音特征紧凑子集的语音识别置信度估计,在等错率上取得了12.7%的相对下降.把经过优化后的基于发音特征的语音识别置信度估计和基于隐马尔可夫模型的语音识别置信度进行融合,在保持集内识别率不损失的前提下,显著提高了语法外输入测试的拒识性能:在相同参数下,在开发集和测试集上分别取得了34%和35.3%的显著改善.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号