共查询到15条相似文献,搜索用时 62 毫秒
1.
《声学学报:英文版》2015,(1)
针对训练样本与测试样本来自不同语音情感数据库造成特征向量空间分布不匹配的问题,采用半监督判别分析减小二者的差异。首先寻找有标签的训练样本和来自另一个库的部分无标签训练样本之间的最优投影方向。基于一致性假设即相近的点更有可能具有相同的类别,利用p近邻图对无标签训练样本相近点之间的关系进行建模,从而获得无标签样本的分布信息。在保证无标签样本间流形结构的同时,使所有训练样本类间散度和类内散度的比值达到最大,从而得到最优的投影方向。采用两组实验进行验证,第1组用eNTERFACE库训练去测试Berlin库,识别率为51.41%,第2组用Berlin库训练测试eNTERFACE库,识别率为45.76%,相比未采用半监督判别分析的识别结果分别有了13.72%和22.81%的提高,说明该算法的有效性。通过实验前后数据的可视化分析,说明利用半监督判别分析确实减小了不同库之间特征向量空间分布的不匹配问题,从而提高跨库语音情感识别率。 相似文献
2.
提出了一种基于一致性自监督学习的鲁棒自动语音识别方法。该方法通过使用语音信号仿真技术,模拟一条语音在不同声学场景下的副本;在通过自监督学习方式学习语音表征的同时,极大化一条语音在不同声学环境下对应语音表征的相似性,从而获取到与环境干扰无关的语音表征方式,提高下游语音识别模型的性能。在远讲数据集CHiME-4和会议数据集AMI上的实验表明,所提的一致性自监督学习算法能够取得相比已有的wav2vec2.0自监督学习基线算法30%以上的识别词错误率下降。这表明,所提方法是一种获取噪声无关语音表征、提升鲁棒语音识别性能的有效方法。 相似文献
3.
在语音情感识别过程中,为解决缺乏方言数据库、识别模型准确率低等问题,建立辽西方言语音情感数据库,并提出一种融合注意力机制轻量级网络的语音情感识别模型。模型由特征组合网络、CBAM注意力机制、深度卷积网络及输出层四部分组成。利用三个大小不同的并行卷积提取浅层语音特征并进行拼接;引入CBAM注意力模块将空间特征与通道特征融合;融合后的特征输入深度卷积网络,提取语音深层次特征,输出多维特征向量;输出层对语音进行情感分类识别。模型在IEMOCAP、Emo-DB和自建辽西语音情感数据库上验证,分别取得82.5%、96.2%和90.8%的准确率。实验结果表明,与其他深度学习的模型相比,本文提出的模型在参数量更少的同时识别率更高。 相似文献
4.
为了解决传统卷积神经网络在识别中文语音时预测错误率较高、泛化性能弱的问题,首先以深度卷积神经网络(DCNN)-连接时序分类(CTC)为研究对象,深入分析了不同卷积层、池化层以及全连接层的组合对其性能的影响;其次,在上述模型的基础上,提出了多路卷积神经网络(MCNN)-连接时序分类(CTC),并联合SENet提出了深度SE-MCNN-CTC声学模型,该模型融合了MCNN与SENet的优势,既能加强卷积神经网络的深层信息的传递、避免梯度问题,又可以对提取的特征图进行自适应重标定。最终实验结果表明:SE-MCNN-CTC相较于DCNN-CTC错误率相对降低13.51%,模型最终的错误率达22.21%;算法改进后的声学模型可以有效地提升泛化性能。 相似文献
5.
有效特征的选取一直都是语音情感识别算法的关键。为此,针对语音情感特征选择与构建的问题,一种仿选择性注意机制的语音情感识别算法被提出。考虑到语音信号的时频特性,算法首先计算语音信号的语谱图;其次,模仿选择性注意机制,计算语谱图的颜色、方向和亮度特征图,归一化后形成特征矩阵;然后,将特征矩阵重排列并进行PCA降维,形成情感识别特征向量;最后,利用改进的支持向量机分类方法进行语音情感识别。对愤怒、恐惧、高兴、悲伤和惊奇5种情感的识别实验显示,基于选择性注意的方法能够获得较好的识别效果,平均识别率为85.44%。相比于韵律特征和音质特征,语音情感识别率至少提高10%;相比于其它语谱特征,识别率提高7%左右。 相似文献
6.
针对支持向量机(Support Vector Machine,SVM)的参数优化问题,提出了一种改进的混合蛙跳算法(Improved Shuffled Frog Leaping Algorithm,Im-SFLA),提高了其在实用语音情感识别中的学习能力。首先,我们在SFLA中引入了模拟退火(Simulated Annealing,SA)、免疫接种(Immune Vaccination,IV)、高斯变异和混沌扰动算子,平衡了搜索的高效性和种群的多样性;第二,利用Im-SFLA优化SVM的参数,提出了一种Im-SFLA-SVM方法;第三,分析了烦躁等实用语音情感的声学特征,重点分析了基音、短时能量、共振峰和混沌特征随情感类别的变化特性,构建出144维的情感特征向量并采用LDA降维到4维;最后,在实用语音情感数据库上测试了算法性能,将提出的算法与混合蛙跳算法(Shuffled Frog Leaping Algorithm,SFLA)优化SVM参数的方法(SFLA-SVM方法)、粒子群优化(Particle Swarm Optimization,PSO)算法优化SVM参数的方法(PSO-SVM方法)、基本SVM方法、高斯混合模型(Gaussian Mixture Model,GMM)方法和反向传播(Back Propagation,BP)神经网络法等进行对比。实验结果表明,采用Im-SFLA-SVM方法的平均识别率达到77.8%,分别高于SFLA-SVM方法、PSO-SVM方法、SVM方法、GMM方法和BP神经网络法各1.7%,2.7%,3.4%,4.7%,7.8%,并且对于烦躁这种实用情感的识别率提高效果最为明显,从而证实了Im-SFLA是一种有效的SVM参数选择方法,并且Im-SFLA-SVM方法能显著提升实用语音情感的识别率。 相似文献
7.
针对现有基于生成对抗网络的语音情感转换仍然存在情感分离不明显,且转换后的语音情感缺乏多样性问题,提出了一种面向风格多样化的多对多语音情感转换方法。该方法基于一个双生成器结构的生成对抗网络模型,通过对不同生成器的中间编码进行一致性损失约束确保语音内容和说话人特征具有一致性,以提升转换后语音情感与目标情感的相似性。此外,该方法通过情感映射网络和情感特征编码器为生成器提供同类情感的多样化情感表征。实验结果表明,所提情感语音转换方法得到的语音情感更接近目标情感,且情感样式更加丰富。 相似文献
8.
9.
针对现有的情感计算算法中存在着情感跟踪延迟的问题,且没有考虑到情感状态的连续性的情况,提出了一种结合数据场情感空间和混合蛙跳算法的连续语音情感变化趋势检测技术。首先构建数据场情感空间,利用情感特征量模拟数据场粒子,用势能函数描述粒子之间的相互作用。然后运用混合蛙跳算法技术,用青蛙个体来模拟情感状态变化过程中的情感特征量,得到情感变化的趋势。通过对变化趋势的分析,可以达到情感预测的目的。经实验证明,该算法性能比现有算法有较大改进。 相似文献
10.
基于Fisher判别分析的有监督特征提取和星系光谱分类 总被引:1,自引:2,他引:1
随着天文观测技术的进步、数据获取能力的提高和大型光谱巡天计划的相继实施,光谱数据的自动处理研究越来越受到重视和关注。文章在分析了文献中光谱自动分类研究的特点和无监督特征提取方法所固有的一些不足的基础上指出了光谱有监督特征提取研究的必要性。并重点研究了Fisher判别分析(FDA)有监督特征提取方法在星系光谱自动分类中的应用。该方法: (1) 具有突出的维数约减能力; (2) 能有效地融合训练数据的类别信息,并按照分类能力提取特征。实验表明,将FDA方法用于某些星系细分类不仅明显地提高了分类器的速度,而且具有良好的分类性能。因此,对于较大的光谱识别系统更能体现出该方法的优越性。 相似文献
11.
How to efficiently utilize the color image information and extract effective features is the key of color face recognition. In this paper, we first analyze the similarities between facial color component image samples and their influence on color face recognition. Then we propose a novel color face recognition approach named within-component and between-component discriminant analysis (WBDA), which realizes discriminant analysis not only within each color component but also between different components. Experimental results on the face recognition grand challenge (FRGC) version 2 database demonstrate that the proposed approach outperforms several representative color face recognition methods. 相似文献
12.
Due to the drawbacks in Support Vector Machine(SVM)parameter optimization,an Improved Shuffled Frog Leaping Algorithm(Im-SFLA)was proposed,and the learning ability in practical speech emotion recognition was improved.Firstly,we introduced Simulated Annealing(SA),Immune Vaccination(Iv),Gaussian mutation and chaotic disturbance into the basic SFLA,which bManced the search efficiency and population diversity effectively.Secondly,Im-SFLA Was applied to the optimization of SVM parameters,and an Im-SFLA-SVM method Was proposed.Thirdly,the acoustic features of practical speech emotion,such aS ridgetiness,were analyzed.The pitch frequency,short-term energy,formant frequency and chaotic characteristics were analyzed corresponding to different emotion categories,and we constructed a 144-dimensional emotion feature vector for recognition and reduced to 4-dimension by adopting Linear Discriminant Analysis(LDA) Finally,the Im-SFLA-SVM method Was tested on the practical speech emotion database,and the recognition results were compared with Shuffled Frog Leaping Algorithm optimization-SVM(SFLA-SVM)method,Particle Swarm Optimization algorithm optimization-SVM(PSo-SVM) method,basic SVM,Gaussian Mixture Model(GMM)method and Back Propagation(BP)neural network method.The experimentM resuits showed that the average recognition rate of Im-SFLA-SVM method was 77.8%,which had improved 1.7%,2.7%,3.4%,4.7%and 7.8%respectively,compared with the other methods.The recognition of fidgetiness was significantly improve,thus verifying that Im-SFLA was an effective SVM parameter selection method,and the Im-SFLA-SVM method may significantly improve the practical speech emotion recognition. 相似文献
13.
为提高步态识别准确率,提出了基于空-频域特征和线性判别分析的视频步态识别方法。利用离散余弦变换、Contourlet变换分别提取步态能量图的频率特征和多尺度多方向轮廓特征;融合得到空-频域特征,并通过线性判别分析映射到最佳鉴别矢量空间;根据相似性距离实现身份识别。在中科院自动化所提供的数据库中进行实验,结果表明,提出的特征提取方法优于现有常用方法。空-频域特征能够有效地区分步态中的高低频分量,并捕捉丰富的细节信息,线性判别分析在降维的同时进一步增强特征的判别能力,有助于提高识别精度。 相似文献
14.
Time-resolved contrast-enhanced magnetic resonance angiography (CE-MRA) provides contrast dynamics in the vasculature and allows vessel segmentation based on temporal correlation analysis. Here we present an automated vessel segmentation algorithm including automated generation of regions of interest (ROIs), cross-correlation and pooled sample covariance matrix analysis. The dynamic images are divided into multiple equal-sized regions. In each region, ROIs for artery, vein and background are generated using an iterative thresholding algorithm based on the contrast arrival time map and contrast enhancement map. Region-specific multi-feature cross-correlation analysis and pooled covariance matrix analysis are performed to calculate the Mahalanobis distances (MDs), which are used to automatically separate arteries from veins. This segmentation algorithm is applied to a dual-phase dynamic imaging acquisition scheme where low-resolution time-resolved images are acquired during the dynamic phase followed by high-frequency data acquisition at the steady-state phase. The segmented low-resolution arterial and venous images are then combined with the high-frequency data in k-space and inverse Fourier transformed to form the final segmented arterial and venous images. Results from volunteer and patient studies demonstrate the advantages of this automated vessel segmentation and dual phase data acquisition technique. 相似文献
15.
An important outcome of education for speech-language pathologypractice is the ability to analyze voices perceptually, a complex task that is often difficult for novices. This article describes an interactive multi-media package, “A Sound Judgement,” that is designed to help students develop skills in perceptual voice analysis and to link their perceptions to laryngeal physiology. The package presents a range of clients with vocal impairments at increasing levels of complexity. Each case has a videoed interview, endoscopic views and animations of the larynx, and case history information. Students make perceptual ratings of clients' voices on a format designed specifically for this package and feedback is provided using ratings made by expert speech-language pathologists. High levels of consensus for the perceptual judgments were achieved among the expert raters. Preliminary evaluations by students have demonstrated that “A Sound Judgement” is likely to be a valuable educational tool. 相似文献