首页 | 本学科首页   官方微博 | 高级检索  
     

基于文本特征能量编码的多模态语声情感识别*
作者姓名:方丛丛  金赟  赵力  马勇  李世党  顾煜
作者单位:江苏师范大学,江苏师范大学,东南大学,江苏师范大学,江苏师范大学,江苏师范大学
基金项目:江苏省高校自然科学基金
摘    要:能量是情感表达重要的特征之一,说话时不同的文字有着各自的能量值,反映了说话者不同的情感状态。而把语声转录成文本的过程中,每个文字表达的能量信息并不包含在内,在提取文本特征的时候导致能量信息丢失。故对于文本模态,该文提出并设计了一种能量编码,将语声信号的每个词、每个停顿的能量值添加到转录文本中,使文本特征包含能量信息,并通过DC-BERT模型获取话语级文本特征。对于语声模态,利用OpenSMILE工具箱,提取语声中的浅层声学特征,采用随机森林算法,选取情感特征重要度靠前的1000维特征作为新的特征集。通过Transformer Encoder网络从新的特征集中提取深层特征,并将浅层特征和深层特征融合,形成多层次的语声情感特征。最后,利用基于自注意力机制的双向长短时记忆神经网络进行情感分类。结果表明,该文提出的方法在IEMOCAP四类情感分类中的加权准确率达到了76.49%。

关 键 词:多模态情感识别  能量编码  随机森林  特征融合  注意机制
收稿时间:2023-05-26
修稿时间:2024-09-04
点击此处可从《应用声学》浏览原始摘要信息
点击此处可从《应用声学》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号