基于文本特征能量编码的多模态语声情感识别* |
| |
作者姓名: | 方丛丛 金赟 赵力 马勇 李世党 顾煜 |
| |
作者单位: | 江苏师范大学,江苏师范大学,东南大学,江苏师范大学,江苏师范大学,江苏师范大学 |
| |
基金项目: | 江苏省高校自然科学基金 |
| |
摘 要: | 能量是情感表达重要的特征之一,说话时不同的文字有着各自的能量值,反映了说话者不同的情感状态。而把语声转录成文本的过程中,每个文字表达的能量信息并不包含在内,在提取文本特征的时候导致能量信息丢失。故对于文本模态,该文提出并设计了一种能量编码,将语声信号的每个词、每个停顿的能量值添加到转录文本中,使文本特征包含能量信息,并通过DC-BERT模型获取话语级文本特征。对于语声模态,利用OpenSMILE工具箱,提取语声中的浅层声学特征,采用随机森林算法,选取情感特征重要度靠前的1000维特征作为新的特征集。通过Transformer Encoder网络从新的特征集中提取深层特征,并将浅层特征和深层特征融合,形成多层次的语声情感特征。最后,利用基于自注意力机制的双向长短时记忆神经网络进行情感分类。结果表明,该文提出的方法在IEMOCAP四类情感分类中的加权准确率达到了76.49%。
|
关 键 词: | 多模态情感识别 能量编码 随机森林 特征融合 注意机制 |
收稿时间: | 2023-05-26 |
修稿时间: | 2024-09-04 |
|
| 点击此处可从《应用声学》浏览原始摘要信息 |
|
点击此处可从《应用声学》下载免费的PDF全文 |
|