首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 44 毫秒
1.
常用的梅尔倒谱系数结合高斯混合模型(MFCC+GMM)方法的鸟鸣声识别技术难适应噪声环境,模型难以收敛,且计算复杂度高。该文提出一种融合声纹信息的能量谱图的鸟类识别方法(VPS-BR),该方法利用鸟类鸣声在能量谱图上所表现的多维差异性,定量识别鸣声声纹特征。通过对分贝能量进行颜色映射得到能量谱图,提取其视觉特征所表达的声学特征,分析归纳得到鸟类特有鸣声模式。在特征提取步骤中,选用识别速度快的局部二值模式、识别鲁棒性高的方向梯度直方图两个参数表征鸟鸣声谱图的边缘声纹;在识别步骤中,用局部二值模式和方向梯度直方图两种特征分别与支持向量机、K最近邻和随机森林3种分类器算法进行两两组合构建识别模型测试。对15种原始带噪鸟类鸣声数据集进行交叉验证,VPS-BR模型的平均识别率比MFCC+GMM组合模型高出11.3%,方向梯度直方图特征与K最近邻分类器的组合模型识别率达90.5%,表现出较好的抗噪性能和识别性能。最后针对样本数据集缺乏问题,使用生成对抗网络进行图像增强,进一步将识别率提升1.48%。  相似文献   

2.
有效特征的选取一直都是语音情感识别算法的关键。为此,针对语音情感特征选择与构建的问题,一种仿选择性注意机制的语音情感识别算法被提出。考虑到语音信号的时频特性,算法首先计算语音信号的语谱图;其次,模仿选择性注意机制,计算语谱图的颜色、方向和亮度特征图,归一化后形成特征矩阵;然后,将特征矩阵重排列并进行PCA降维,形成情感识别特征向量;最后,利用改进的支持向量机分类方法进行语音情感识别。对愤怒、恐惧、高兴、悲伤和惊奇5种情感的识别实验显示,基于选择性注意的方法能够获得较好的识别效果,平均识别率为85.44%。相比于韵律特征和音质特征,语音情感识别率至少提高10%;相比于其它语谱特征,识别率提高7%左右。   相似文献   

3.
杨占磊  刘文举  晁浩 《声学学报》2012,37(2):209-217
语音帧在声学特征空间中的位置信息可以辅助解码器对潜在路径进行筛选。传统的语音识别系统缺乏利用这种位置信息。针对这种不足,本文提出一种引导概率模型,用于描述语音帧属于声学特征空间不同局部的概率,并将其用于识别。使用引导概率后,解码器更强调对声学特征空间中最有希望的局部进行搜索,保留并扩展通过此局部空间的路径,同时弱化不经过此局部空间的路径。实验结果显示,融合引导概率的解码算法在不显著增加解码复杂度的情形下,使汉字相对错误率下降10.95%。结果分析表明,融合了语音帧声学位置信息的解码方法能够更有效地鉴别潜在路径,从而降低误识率。   相似文献   

4.
语音情感识别在许多领域具有重要研究价值,不同声学情感特征在使用不同分类器进行分类时,识别效果具有明显差异。与语音情感有关的声学特征包括谱特征、韵律学特征、音质特征。该文提出一种特征融合的方法,将3种声学特征中具有最好识别能力的特征进行融合:保留在实验中表现稳定且有较高识别率的谱特征的全部特征,提取韵律学、音质特征的相关统计量作为辅助特征融合于谱特征中。实验表明,该文所提出的融合特征在使用同一分类器进行分类时,识别率优于单一特征;当使用不同分类器时,融合特征依然具有较好的识别能力,且识别性能稳定,3个数据集上均有较好的识别率,基本实现跨数据集识别。  相似文献   

5.
针对实际鸟类监测环境中,收集鸟声声频数据分布不均匀,导致神经网络训练不充分,分类识别测试准确率低的问题,设计了一种桥接Transformer神经网络模型。该网络首先利用原始鸟声声频信号生成短时傅里叶变换语谱图作为输入特征,之后将语谱图输入到由注意力模块和卷积模块桥接组成的Transformer网络中,完成对语谱图中全局特征和局部特征的信息交互,最后利用单层Transformer编码器实现对每一个批次样本的损失优化,得到最终的分类结果。在Birdsdata和xeno-canto鸟声数据集上进行小样本实验,分别获得了91.34%和82.63%的平均准确率,与其他鸟声识别网络进行了对比实验,验证了该网络的有效性。  相似文献   

6.
孙慧贤  张玉华  罗飞路 《光子学报》2014,39(9):1666-1671
 针对复杂背景下钢索图像难以准确分割的问题,提出一种基于纹理分析的钢索图像分割与边界识别方法.采用基于模糊Hough变换的纹理方向检测方法确定钢索走向,利用边缘方向密度直方图作为纹理特征,对与钢索纹理方向相应的边缘方向赋予不同权重,抑制纹理分割中背景的干扰,对钢丝绳图像进行聚类分割,采用检测平行直线的方法确定其边界,并根据算法参量对边界进行修正.在实验中,对比了边缘方向密度直方图特征与灰度共生矩阵、局部二值模式在钢索图像纹理分割中的结果与计算时间,结果表明边缘方向密度直方图特征计算速度快、受背景干扰小,分割准确率高.本文方法无须预先训练,受背景干扰小,可以准确地识别出钢索并确定其边界,能满足钢丝绳视觉检测的要求.  相似文献   

7.
复杂背景下钢索图像的纹理分割与边界识别   总被引:1,自引:0,他引:1  
针对复杂背景下钢索图像难以准确分割的问题,提出一种基于纹理分析的钢索图像分割与边界识别方法.采用基于模糊Hough变换的纹理方向检测方法确定钢索走向,利用边缘方向密度直方图作为纹理特征,对与钢索纹理方向相应的边缘方向赋予不同权重,抑制纹理分割中背景的干扰,对钢丝绳图像进行聚类分割,采用检测平行直线的方法确定其边界,并根据算法参量对边界进行修正.在实验中,对比了边缘方向密度直方图特征与灰度共生矩阵、局部二值模式在钢索图像纹理分割中的结果与计算时间,结果表明边缘方向密度直方图特征计算速度快、受背景干扰小,分割准确率高.本文方法无须预先训练,受背景干扰小,可以准确地识别出钢索并确定其边界,能满足钢丝绳视觉检测的要求.  相似文献   

8.
复杂光照下QR码图像二值化算法研究及应用   总被引:1,自引:0,他引:1       下载免费PDF全文
在复杂光照条件下二维码扫码器采集到的图像容易出现整体高亮、阴影区域和局部高亮、阴影区域,使得图像分割阈值确定困难,研究了Sauvola算法中的窗口大小w值和修正因子k值对于QR码图像二值化的影响。针对全局二值化方法抗噪能力差和局部二值化方法处理速度慢的缺陷,提出了一种改进的QR码图像二值化方法,将Otsu和Sauvola算法相结合提升算法抗噪能力,并利用积分图算法提高算法运行效率。实验证明,该方法二值化效果优于经典的二值化方法,平均运行效率比原Sauvola算法提高17倍,提升了识别成功率。  相似文献   

9.
针对匣钵底面裂纹图像背景复杂,裂纹分布密集、断续严重,裂纹特征不明显,从而导致裂纹提取难度大的问题,提出了一种基于扇形邻域差异直方图的匣钵裂纹检测方法。根据裂纹像素点的空间聚集特征和方向特征,构造多尺度、多方向扇形滤波器;通过计算扇形滤波器与图像卷积的结果,获取能够反映裂纹分布概率特征的扇形邻域差异直方图;提取裂纹分布概率特征,并根据裂纹像素点和非裂纹像素点在该特征上的差异,实现裂纹提取;最后,提出基于裂纹全局及局部的长度和分布面积特征融合的指标,对匣钵龟裂程度进行评估。实验结果表明,该算法对匣钵底面上各种类型的裂纹都能实现良好的提取效果,正确率和召回率均可达到90%以上,优于现有其他较好的裂纹提取方法,龟裂程度评估方法的评估结果也与人的主观评估结果一致。  相似文献   

10.
摄像机间目标关联是无重叠视域多摄像机目标持续跟踪的关键.提出了一种只利用人体目标外观,完全不依赖于空时关系的人体目标再识别算法,利用识别结果直接进行跨摄像机间人体目标关联,而不依赖于目标的捕获时间和路径限制.对跟踪视频前景图像序列提取互补性视觉单词树直方图和全局颜色直方图二种特征,采用支持向量机增量学习在线训练二种特征的人体外观辨别模型,再利用多类线性规划增强算法对二种特征的支持向量机模型进行在线自适应融合.实验结果表明,本文算法具有较强的在线学习能力,能增量式表达人体目标辨别性外观模型,特征融合后的模型区别性更强,有效地降低多方面条件变化的影响,获得了高识别率,且能够实现快速实时实现,相对于现有方法有了明显提升.  相似文献   

11.
王玮蔚  张秀再 《应用声学》2019,38(2):237-244
针对传统语音情感特征参数在进行情感分类时性能不佳的问题,该文提出了一种基于变分模态分解的语音情感识别方法。情感语音信号首先由变分模态分解提取固有模态函数,然后对所选主导固有模态函数进行重新聚合,再提取梅尔倒谱系数和各固有模态函数的希尔伯特边际谱。为了验证该文提出的特征性能,选用两种语音数据库(EMODB、RAVDESS)进行实验,按该文方法提取特征后使用极限学习机进行语音情感分类识别。实验结果表明:相比基于经验模态分解和集合经验模态分解的语音情感特征,该文提出的特征有更好的识别性能,验证了该方法的实用性。  相似文献   

12.
结合幅度谱和功率谱字典的语音增强方法   总被引:1,自引:0,他引:1       下载免费PDF全文
从双路字典学习、噪声功率谱估计、语音幅度谱重构角度提出了一种改进的谱特征稀疏表示语音增强方法.在字典学习阶段,融合功率谱与幅度谱特征,采用区分性字典降低语音字典和噪声字典的相干性;在语音增强阶段,提出一种噪声功率谱估计方法对非平稳噪声进行跟踪估计;考虑到幅度谱和功率谱特征对不同噪声的适应程度不同,设计了语音重构权值表....  相似文献   

13.
语音是一种短时平稳时频信号,因此大多数的研究者都通过分帧来提取情感特征。然而,分帧后提取的特征为局部特征,无法准确反应情感语音动态特性,故单纯采用局部特征往往无法构建鲁棒的情感识别系统。针对这个问题,先在不分帧的语音信号里通过多尺度最优小波包分解提取语句级全局特征,分帧后再提取384维的语句级局部特征,并利用Fisher准则进行降维,最后提出一种弱尺度融合策略来将这两种语句级特征进行融合,再利用SVM进行情感分类。基于柏林情感库的实验结果表明本文方法较单纯使用语句级局部特征最后识别率提高了4.2%到13.8%,特别在小样本的情况下,语音情感识别率波动较小。   相似文献   

14.
15.
张志浩  王坤侠 《应用声学》2022,41(5):843-850
语声情感识别对人机交互和情感计算研究领域具有重要作用,各类研究方法层出不穷。近期研究学者应用卷积神经网络和长短期记忆网络方法提取对数Mel谱图空间特征和时间特征,取得了一定的成果。然而不论是卷积神经网络还是长短期记忆网络提取特征时,都会产生特征冗余,导致语声情感识别效果下降。针对这一问题,该文提出了一种基于时空注意力机制的卷积-递归神经网络模型,采用对数Mel谱图和其一阶差分、二阶差分作为特征输入,在使用卷积神经网络提取空间特征和长短期记忆网络提取时间特征时,加入空间注意力和时间注意力机制,从而使上述网络能够更好地提取到对数Mel谱图中有效表征情感的空间特征和时间特征。该模型在Emo-DB和IEMOCAP语声数据集上的加权准确率分别达到86.8%、69.4%,未加权准确率分别达到84.7%、65.5%,优于当前大多数先进方法。  相似文献   

16.
针对支持向量机(Support Vector Machine,SVM)的参数优化问题,提出了一种改进的混合蛙跳算法(Improved Shuffled Frog Leaping Algorithm,Im-SFLA),提高了其在实用语音情感识别中的学习能力。首先,我们在SFLA中引入了模拟退火(Simulated Annealing,SA)、免疫接种(Immune Vaccination,IV)、高斯变异和混沌扰动算子,平衡了搜索的高效性和种群的多样性;第二,利用Im-SFLA优化SVM的参数,提出了一种Im-SFLA-SVM方法;第三,分析了烦躁等实用语音情感的声学特征,重点分析了基音、短时能量、共振峰和混沌特征随情感类别的变化特性,构建出144维的情感特征向量并采用LDA降维到4维;最后,在实用语音情感数据库上测试了算法性能,将提出的算法与混合蛙跳算法(Shuffled Frog Leaping Algorithm,SFLA)优化SVM参数的方法(SFLA-SVM方法)、粒子群优化(Particle Swarm Optimization,PSO)算法优化SVM参数的方法(PSO-SVM方法)、基本SVM方法、高斯混合模型(Gaussian Mixture Model,GMM)方法和反向传播(Back Propagation,BP)神经网络法等进行对比。实验结果表明,采用Im-SFLA-SVM方法的平均识别率达到77.8%,分别高于SFLA-SVM方法、PSO-SVM方法、SVM方法、GMM方法和BP神经网络法各1.7%,2.7%,3.4%,4.7%,7.8%,并且对于烦躁这种实用情感的识别率提高效果最为明显,从而证实了Im-SFLA是一种有效的SVM参数选择方法,并且Im-SFLA-SVM方法能显著提升实用语音情感的识别率。   相似文献   

17.
Due to the drawbacks in Support Vector Machine(SVM)parameter optimization,an Improved Shuffled Frog Leaping Algorithm(Im-SFLA)was proposed,and the learning ability in practical speech emotion recognition was improved.Firstly,we introduced Simulated Annealing(SA),Immune Vaccination(Iv),Gaussian mutation and chaotic disturbance into the basic SFLA,which bManced the search efficiency and population diversity effectively.Secondly,Im-SFLA Was applied to the optimization of SVM parameters,and an Im-SFLA-SVM method Was proposed.Thirdly,the acoustic features of practical speech emotion,such aS ridgetiness,were analyzed.The pitch frequency,short-term energy,formant frequency and chaotic characteristics were analyzed corresponding to different emotion categories,and we constructed a 144-dimensional emotion feature vector for recognition and reduced to 4-dimension by adopting Linear Discriminant Analysis(LDA) Finally,the Im-SFLA-SVM method Was tested on the practical speech emotion database,and the recognition results were compared with Shuffled Frog Leaping Algorithm optimization-SVM(SFLA-SVM)method,Particle Swarm Optimization algorithm optimization-SVM(PSo-SVM) method,basic SVM,Gaussian Mixture Model(GMM)method and Back Propagation(BP)neural network method.The experimentM resuits showed that the average recognition rate of Im-SFLA-SVM method was 77.8%,which had improved 1.7%,2.7%,3.4%,4.7%and 7.8%respectively,compared with the other methods.The recognition of fidgetiness was significantly improve,thus verifying that Im-SFLA was an effective SVM parameter selection method,and the Im-SFLA-SVM method may significantly improve the practical speech emotion recognition.  相似文献   

18.
The quality of feature extraction plays a significant role in the performance of speech emotion recognition. In order to extract discriminative, affect-salient features from speech signals and then improve the performance of speech emotion recognition, in this paper, a multi-stream convolution-recurrent neural network based on attention mechanism (MSCRNN-A) is proposed. Firstly, a multi-stream sub-branches full convolution network (MSFCN) based on AlexNet is presented to limit the loss of emotional information. In MSFCN, sub-branches are added behind each pooling layer to retain the features of different resolutions, different features from which are fused by adding. Secondly, the MSFCN and Bi-LSTM network are combined to form a hybrid network to extract speech emotion features for the purpose of supplying the temporal structure information of emotional features. Finally, a feature fusion model based on a multi-head attention mechanism is developed to achieve the best fusion features. The proposed method uses an attention mechanism to calculate the contribution degree of different network features, and thereafter realizes the adaptive fusion of different network features by weighting different network features. Aiming to restrain the gradient divergence of the network, different network features and fusion features are connected through shortcut connection to obtain fusion features for recognition. The experimental results on three conventional SER corpora, CASIA, EMODB, and SAVEE, show that our proposed method significantly improves the network recognition performance, with a recognition rate superior to most of the existing state-of-the-art methods.  相似文献   

19.
黄永明  章国宝  董飞  李悦 《声学学报》2013,38(2):231-240
提出了层叠式“产生/判别”混合模型的语音情感识别方法。首先,提取63维语句级特征,运用Fisher从中选择12个最佳的语句级特征,建立小波神经网络(WNN)的层叠式产生式模型进行语音情感识别;然后提取69维帧级特征,采用SFS选择出待使用的8维特征,将高斯混合模型(GMM)进行多维概率输出,建立层叠式“产生/判别”混合模型进行语音情感识别。实验结果显示:(1)层叠式“产生/判别”混合模型较单独WNN、GMM、HMM (隐马尔可夫模型)、SVM (支持向量机)的识别率要高;(2)层叠式“产生/判决式”混合模型识别率较基于WNN的层叠产生式模型高;(3) M=13,D维GMM-MAP/SVM (MAP,最大后验概率)串联融合模型为最优的层叠式“产生/判别”混合模型,能获得最高85.1%的识别率。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号