共查询到20条相似文献,搜索用时 0 毫秒
1.
2.
语音情感识别的研究进展 总被引:11,自引:0,他引:11
情感在人类的感知、决策等过程扮演着重要角色.长期以来情感智能研究只存在于心理学和认知科学领域,近年来随着人工智能的发展,情感智能跟计算机技术结合产生了情感计算这一研究课题,这将大大的促进计算机技术的发展.情感自动识别是通向情感计算的第一步.语音作为人类最重要的交流媒介,携带着丰富的情感信息.如何从语音中自动识别说话者的情感状态近年来受到各领域研究者的广泛关注.本文从语音情感识别所涉及的几个重要问题出发,包括情感理论及情感分类、情感语音数据库、语音中的情感特征和语音情感识别算法等,介绍了当前的研究进展,并讨论了今后研究的几个关键问题. 相似文献
3.
对语音情感识别的起源及主要研究内容作了介绍,对国内外语音情感识别的研究现状作了归纳总结;对语音情感特征的提取、情感分类器的建模算法作了重点分析介绍,最后对情感识别未来发展方向进行了展望. 相似文献
4.
本文设计了一种基于CNN和LSTM语音情感识别神经网络结构,其在识别多分类情感时表现良好,与使用单卷积核、双卷积核网络结构相比,本文结构表现更加优秀. 相似文献
5.
6.
7.
8.
提出了一种基于LS-SVM的情感语音识别方法。即先提取实验中语音信号的基频,能量,语速等参数为情感特征,然后采用LS-SVM方法对相应的情感语音信号建立模型,进行识别。实验结果表明,利用LS-SVM进行基本情感识别时,识别率较高。 相似文献
9.
实际的研究表明,语音情感识别方法有多种.介绍了一种基于GMM的语音情感识别方法,包括该方法的优点、存在的问题或不足等,并对此进行了思考,给出了一些处理办法. 相似文献
10.
为了提高情感识别的正确率,针对单一语音信号特征和表面肌电信号特征存在的局限性,提出了一种集成语音信号特征和表面肌电信号特征的情感自动识别模型.首先对语音信号和表面肌电信号进行预处理,并分别提取相关的语音信号和表面肌电信号特征,然后采用支持向量机对语音信号和表面肌电信号特征进行学习,分别建立相应的情感分类器,得到相应的识别结果,最后将识别结果分别输入到支持向量机确定两种特征的权重系数,从而得到最终的情感识别结果.两个标准语情感数据库的仿真结果表明,相对于其它情感识别模型,本文模型大幅提高了情感识别的正确率,人机交互情感识别系统提供了一种新的研究工具. 相似文献
11.
12.
13.
14.
语音识别作为信息技术中一种人机接口的关键技术,具有重要的研究意义和广泛的应用价值。介绍了语音识别技术发展的历程,具体阐述了语音识别概念、基本原理、声学建模方法等基本知识,并对语音识别技术在各领域的应用作了简要介绍。 相似文献
15.
端到端语音识别模型由于结构简单且容易训练,已成为目前最流行的语音识别模型.然而端到端语音识别模型通常需要大量的语音-文本对进行训练,才能取得较好的识别性能.而在实际应用中收集大量配对数据既费力又昂贵,因此其无法在实际应用中被广泛使用.本文提出一种将RNN-T(Recurrent Neural Network Trans... 相似文献
16.
针对压缩感知(Compressed Sensing,CS)方法需将图像矩阵转化为向量后进行特征提取,导致数据维数很大,计算复杂等缺点,提出二维离散余弦变换(2DDCT)和压缩感知(Compressed Sensing,CS)相结合的人脸识别方法。新方法首先利用2DDCT将图像变换到频域,压缩人脸图像以去掉人眼不敏感的中频分量与高频分量,这样有效降低了所需特征的维数,减少了计算量;然后通过感知算法进行特征提取得到人脸识别特征,最后运用最近邻分类器完成人脸的识别。在ORL、Yale及Feret人脸数据库的实验结果证明了该算法的有效性与稳健性,特别是在YaleB人脸数据库运用该方法得到了很好的试验结果。 相似文献
17.
语音识别系统是英语翻译器的核心部分,优化翻译器软件功能是信息化教学改革重点,分析了英语翻译器语音识别系统设计方法,对其实际应用功能进行研究。 相似文献
18.
当下,地震应急救援时使用对讲机通话是必不可少的通信方式。但救援人员通话时,必然要用手按住PTT才行,这就影响救援人员工作时便利性。基于此,研究采用最新数字运算处理技术以及编入了只识别人类声音的算法,使得外界声音和冲击等不被识别。当救援人员讲话时,自动识别产生PTT,就可以实现通话。救援人员的双手给彻底解放出来,讲话时对讲机自动发射,这对于通信方法优化,提高救援效率,都是有重大益处的。 相似文献
19.
Bahram Kouhi-Jelehkaran Hamidreza Bakhshi Farbod Razzazi 《AEUE-International Journal of Electronics and Communications》2010,64(12):1167-1172
Because of noise and reverberation, accuracy of speech recognition systems decreases when the distance between talker and microphone increases. By the using of microphone arrays and appropriate filtering of received signals, the accuracy of recognizer can be increased. Many different methods for using microphone arrays have been proposed that can be classified into two main approaches: systems that perform in two independent stages of array processing and then recognition and systems that use array processing to generate a sequence of features which maximize the likelihood of generating the correct hypothesis in recognition phase. Following second approach, in this paper a new method for microphone array processing is proposed in which the parameters of array processing are adjusted in calibration phase based on phones used in language and maximum likelihood method. Optimized filter parameters are stored and used during recognition phase. A new modified Viterbi algorithm using optimal phone-based filter parameters is used for recognition phase. The proposed algorithm is analytically formulated and Persian language is used to find any improvement in speech recognition accuracy compared with results of delay and sum and utterance-based filter and sum algorithms. The results show 12.2% improvement in accuracy compared to utterance-based algorithm. 相似文献