首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
黄永明  章国宝  董飞  李悦 《声学学报》2013,38(2):231-240
提出了层叠式“产生/判别”混合模型的语音情感识别方法。首先,提取63维语句级特征,运用Fisher从中选择12个最佳的语句级特征,建立小波神经网络(WNN)的层叠式产生式模型进行语音情感识别;然后提取69维帧级特征,采用SFS选择出待使用的8维特征,将高斯混合模型(GMM)进行多维概率输出,建立层叠式“产生/判别”混合模型进行语音情感识别。实验结果显示:(1)层叠式“产生/判别”混合模型较单独WNN、GMM、HMM (隐马尔可夫模型)、SVM (支持向量机)的识别率要高;(2)层叠式“产生/判决式”混合模型识别率较基于WNN的层叠产生式模型高;(3) M=13,D维GMM-MAP/SVM (MAP,最大后验概率)串联融合模型为最优的层叠式“产生/判别”混合模型,能获得最高85.1%的识别率。   相似文献   

2.
有效特征的选取一直都是语音情感识别算法的关键。为此,针对语音情感特征选择与构建的问题,一种仿选择性注意机制的语音情感识别算法被提出。考虑到语音信号的时频特性,算法首先计算语音信号的语谱图;其次,模仿选择性注意机制,计算语谱图的颜色、方向和亮度特征图,归一化后形成特征矩阵;然后,将特征矩阵重排列并进行PCA降维,形成情感识别特征向量;最后,利用改进的支持向量机分类方法进行语音情感识别。对愤怒、恐惧、高兴、悲伤和惊奇5种情感的识别实验显示,基于选择性注意的方法能够获得较好的识别效果,平均识别率为85.44%。相比于韵律特征和音质特征,语音情感识别率至少提高10%;相比于其它语谱特征,识别率提高7%左右。   相似文献   

3.
王猛  张鹏远 《声学学报》2022,47(6):717-726
为解决短时音频场景识别任务中识别性能差的问题,提出一种融合多尺度特征的音频场景识别方法。首先将双声道音频中左右声道的和差作为输入,并使用长时帧长进行分帧处理,以保证提取出的帧级特征中包含足够多的音频信息。然后将特征逐帧输入到融合多尺度特征的一维卷积神经网络中,以充分利用网络中不同尺度的浅层、中层和深层嵌入特征。最后综合所有帧级软标签得到短时音频的场景分类结果。实验结果表明,该方法在国际声学场景和事件检测与分类挑战赛(DCASE) 2021短时音频场景数据集上的准确率为79.02%,实现了该数据集上目前为止的最优性能。  相似文献   

4.
杨丽荣  江川  黎嘉骏  曹冲  周俊 《应用声学》2023,42(5):971-983
为了获取岩石破裂过程有效的声发射信号特征,更好的对岩石破裂状态进行分类,提出一种基于流形学习算法的LLE特征融合方法进行数据降维。以红砂岩为研究对象设计室内单轴压缩实验采集信号,然后对原始声发射信号预处理并对信号进行特征提取,以时域、频域下的特征向量重新组合成一组新的多维特征向量,采用线性主元(PCA)和流形学习LLE算法分别进行降维。比较两种算法降维后融合特征的聚类效果二维和三维分布图,使用LLE算法降维后,四种状态分布相对更近,呈一条水平线趋势,且各状态交叉混叠数目较少,第一状态没有一个样本错判,且四个状态相比于PCA降维后的聚类效果更集中。再比较两种算法降维后融合特征的敏感度之和,LLE算法融合特征敏感度之和远大于PCA算法,说明经过LLE算法降维后得到的融合特征更多地表征了原始信号包含的局部信息同时证明了LLE算法相比PCA算法具有更好的聚类效果。最后经LLE特征融合下的砂岩破裂状态分类实验验证,融合特征后的识别率相对单一的时域特征识别提高了6%。表明该方法能显著提高岩石破裂状态分类的识别率,降维性能相对突出。  相似文献   

5.
语音情感识别在许多领域具有重要研究价值,不同声学情感特征在使用不同分类器进行分类时,识别效果具有明显差异。与语音情感有关的声学特征包括谱特征、韵律学特征、音质特征。该文提出一种特征融合的方法,将3种声学特征中具有最好识别能力的特征进行融合:保留在实验中表现稳定且有较高识别率的谱特征的全部特征,提取韵律学、音质特征的相关统计量作为辅助特征融合于谱特征中。实验表明,该文所提出的融合特征在使用同一分类器进行分类时,识别率优于单一特征;当使用不同分类器时,融合特征依然具有较好的识别能力,且识别性能稳定,3个数据集上均有较好的识别率,基本实现跨数据集识别。  相似文献   

6.
针对现有高光谱视频目标跟踪算法在目标尺度发生变化时容易出现跟踪精度下降的问题,提出一种基于光谱匹配降维和特征融合的高光谱目标跟踪算法。首先,利用目标局部光谱和阈值来估计目标光谱,并利用目标光谱与高光谱图像进行朴素相关,实现高光谱图像降维,从而提取目标的深度特征。然后,利用局部方差判断目标区域,提取目标的3D方向梯度直方图(HOG)特征。为保留高光谱图像的光谱信息以及深度特征的语义信息,利用通道卷积融合的方法,得到更具辨别力的融合特征。最后,将融合特征送入相关滤波器,通过尺度池思想提高算法在目标尺度变化挑战下的跟踪鲁棒性。实验结果表明,所提跟踪算法在目标尺度变化挑战下具有更好的性能。  相似文献   

7.
提出了一种基于局部均值分解(LMD)和串行特征融合(SFF)的光纤周界振动信号识别方法。该方法先去除噪声,提取振动信号的相关信息,再进行SFF以得到具有准确描述能力的特征向量,最后采用概率神经网络(PNN)算法进行学习和分类。利用不同单一振动信号和风雨天气干扰下的不同振动信号对该方法进行验证。结果表明,该方法在上述两种情况下的平均正确识别率分别达到96.0%和96.7%,识别时间分别为0.87 s和0.91 s,在敏感信息识别和特征提取方面明显优于传统的LMD算法和SFF-PNN算法。  相似文献   

8.
针对现有陶瓷制品敲击声波信号特征提取方法中提取的特征代表性降低的问题,该文提出结合最大重叠离散小波包变换(MODWPT)和时频分帧能量熵的特征提取方法。首先采用MODWPT将信号分解为4层,再对每个节点的子信号分帧后计算各个节点的时频分帧能量熵,然后根据能量分布特征选择了前6个节点的时频分帧能量熵特征,最后构建随机森林分类器完成识别。将该方法和MODWPT时频分段能量熵、MODWPT归一化能量特征两种方法进行比较。实验结果表明,相比MODWPT时频分段能量熵、MODWPT归一化能量两种特征提取方法,MODWPT时频分帧能量熵能提升特征的代表性,具有更优的陶瓷制品敲击声波信号特征识别性能,其识别的F1值达到了98.46%,相比上述两种方法分别提升F1值3.22%、1.86%。  相似文献   

9.
杨占磊  刘文举  晁浩 《声学学报》2012,37(2):209-217
语音帧在声学特征空间中的位置信息可以辅助解码器对潜在路径进行筛选。传统的语音识别系统缺乏利用这种位置信息。针对这种不足,本文提出一种引导概率模型,用于描述语音帧属于声学特征空间不同局部的概率,并将其用于识别。使用引导概率后,解码器更强调对声学特征空间中最有希望的局部进行搜索,保留并扩展通过此局部空间的路径,同时弱化不经过此局部空间的路径。实验结果显示,融合引导概率的解码算法在不显著增加解码复杂度的情形下,使汉字相对错误率下降10.95%。结果分析表明,融合了语音帧声学位置信息的解码方法能够更有效地鉴别潜在路径,从而降低误识率。   相似文献   

10.
基于网格维数的汉语语音分形特征研究   总被引:4,自引:1,他引:3  
应用分形理论来研究汉语语音信号的分形特征。木文首先在传统盘维数基础上提出了一种等差尺度网格维数算法来快速计算语音信号的分维数;在此基础上,对汉语男女声的21种声母和38种韵母语音信号的分维数进行了计算和统计分析,得到了汉语语音分维数的统计分布规律。本文实验结果表明,汉语语音信号具有分形标度不变性,网格维数能够反映语音信号波形的复杂程度。  相似文献   

11.
王玮蔚  张秀再 《应用声学》2019,38(2):237-244
针对传统语音情感特征参数在进行情感分类时性能不佳的问题,该文提出了一种基于变分模态分解的语音情感识别方法。情感语音信号首先由变分模态分解提取固有模态函数,然后对所选主导固有模态函数进行重新聚合,再提取梅尔倒谱系数和各固有模态函数的希尔伯特边际谱。为了验证该文提出的特征性能,选用两种语音数据库(EMODB、RAVDESS)进行实验,按该文方法提取特征后使用极限学习机进行语音情感分类识别。实验结果表明:相比基于经验模态分解和集合经验模态分解的语音情感特征,该文提出的特征有更好的识别性能,验证了该方法的实用性。  相似文献   

12.
为了研究语音情感与语谱图特征间的关系,本文研究并提出一种面向语音情感识别的改进可辨别完全局部二值模式特征。首先,基于语谱图灰度图像,计算图像的完全局部二值符号模式(CLBP_S)、幅度模式(CLBP_M)的统计直方图。然后,将CLBP_S,CLBP_M统计直方图输入可区别特征学习模型中,训练得到全局显著性模式集合。最后,采用全局显著性模式集合对CLBP_S,CLBP_M直方图进行处理,将处理后的特征级联,得到面向语音情感识别的改进可辨别完全局部二值模式特征(IDisCLBP_SER)。基于柏林库、中文情感语音库的语音情感识别实验显示,IDisCLBP_SER特征召回率比纹理图像信息(TII)等特征提高了8%以上,比声学频谱特征平均提高了4%以上。而且,本文提出的特征可以和现有声学特征进行较好融合,融合后的特征召回率比现有声学特征召回率提高1%~4%。   相似文献   

13.
褚钰  李田港  叶硕  叶光明 《应用声学》2020,39(2):223-230
为了解决传统卷积神经网络在识别中文语音时预测错误率较高、泛化性能弱的问题,首先以深度卷积神经网络(DCNN)-连接时序分类(CTC)为研究对象,深入分析了不同卷积层、池化层以及全连接层的组合对其性能的影响;其次,在上述模型的基础上,提出了多路卷积神经网络(MCNN)-连接时序分类(CTC),并联合SENet提出了深度SE-MCNN-CTC声学模型,该模型融合了MCNN与SENet的优势,既能加强卷积神经网络的深层信息的传递、避免梯度问题,又可以对提取的特征图进行自适应重标定。最终实验结果表明:SE-MCNN-CTC相较于DCNN-CTC错误率相对降低13.51%,模型最终的错误率达22.21%;算法改进后的声学模型可以有效地提升泛化性能。  相似文献   

14.
朱应俊  周文君  朱川  马建敏 《应用声学》2023,42(5):1090-1098
为了使机器能够更好地理解人的情感并改善人机交互体验,可对语声特征及分类网络进行融合以提升情感识别性能。本文从网络融合的角度,把基于梅尔倒谱系数和逆梅尔倒谱系数的二维卷积神经网络和基于散射卷积网络系数的长短期记忆网络作为前端网络,提取前端网络的中间层作为话语级的特征表示,利用压缩-激励(SE)通道注意力机制对前端网络的中间层的权重进行调整并融合,然后由深度神经网络后端分类器输出情感分类结果。在汉语情感数据集中进行五折交叉验证的对比实验,实验结果表明,基于SE通道注意力机制的网络融合方式可以有效地利用不同前端网络在语声情感识别任务中的优势,提高语声情感识别的准确率。  相似文献   

15.
何群  王煜文  杜硕  陈晓玲  谢平 《物理学报》2018,67(11):118701-118701
运动想象模式识别率的提高对脑机接口(BCI)技术的应用具有重要意义,本文采用自适应无参经验小波变换(APEWT)和选择集成分类模型相结合的方法提高脑电(EEG)信号的分类识别准确率.首先,通过APEWT将EEG信号分解成不同的模态;然后,使用最优模态重构后的信号计算其能量谱(ES)特征,使用最优模态分量计算其边际谱(MS)特征;最后,将不同时间段的ES特征和不同频段的MS特征输入到构建的选择集成分类模型中,从而得到其分类结果,并将该方法与其他4种组合方法进行比较.实验结果表明,本文方法具有较好分类准确率和实时性,其平均分类正确率高于其他4种方法,同时较近期使用相同数据的文献也有优势.本文为在线运动想象类BCI的应用提供了新的方法和思路.  相似文献   

16.
针对支持向量机(Support Vector Machine,SVM)的参数优化问题,提出了一种改进的混合蛙跳算法(Improved Shuffled Frog Leaping Algorithm,Im-SFLA),提高了其在实用语音情感识别中的学习能力。首先,我们在SFLA中引入了模拟退火(Simulated Annealing,SA)、免疫接种(Immune Vaccination,IV)、高斯变异和混沌扰动算子,平衡了搜索的高效性和种群的多样性;第二,利用Im-SFLA优化SVM的参数,提出了一种Im-SFLA-SVM方法;第三,分析了烦躁等实用语音情感的声学特征,重点分析了基音、短时能量、共振峰和混沌特征随情感类别的变化特性,构建出144维的情感特征向量并采用LDA降维到4维;最后,在实用语音情感数据库上测试了算法性能,将提出的算法与混合蛙跳算法(Shuffled Frog Leaping Algorithm,SFLA)优化SVM参数的方法(SFLA-SVM方法)、粒子群优化(Particle Swarm Optimization,PSO)算法优化SVM参数的方法(PSO-SVM方法)、基本SVM方法、高斯混合模型(Gaussian Mixture Model,GMM)方法和反向传播(Back Propagation,BP)神经网络法等进行对比。实验结果表明,采用Im-SFLA-SVM方法的平均识别率达到77.8%,分别高于SFLA-SVM方法、PSO-SVM方法、SVM方法、GMM方法和BP神经网络法各1.7%,2.7%,3.4%,4.7%,7.8%,并且对于烦躁这种实用情感的识别率提高效果最为明显,从而证实了Im-SFLA是一种有效的SVM参数选择方法,并且Im-SFLA-SVM方法能显著提升实用语音情感的识别率。   相似文献   

17.
18.
Speech emotion recognition based on statistical pitch model   总被引:1,自引:0,他引:1  
A modified Parzen-window method, which keep high resolution in low frequencies and keep smoothness in high frequencies, is proposed to obtain statistical model. Then, a gender classification method utilizing the statistical model is proposed, which have a 98% accuracy of gender classification while long sentence is dealt with. By separation the male voice and female voice, the mean and standard deviation of speech training samples with different emotion are used to create the corresponding emotion models. Then the Bhattacharyya distance between the test sample and statistical models of pitch, are utilized for emotion recognition in speech. The normalization of pitch for the male voice and female voice are also considered, in order to illustrate them into a uniform space. Finally, the speech emotion recognition experiment based on K Nearest Neighbor shows that, the correct rate of 81% is achieved, where it is only 73.85% if the traditional parameters are utilized.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号