语音情感识别中的特征选择方法 |
| |
作者姓名: | 褚钰 李田港 叶硕 叶光明 |
| |
作者单位: | 武汉邮电科学研究院,武汉邮电科学研究院,武汉邮电科学研究院,武汉烽火众智数字技术有限责任公司 |
| |
基金项目: | 湖北省科技厅2018年度湖北省技术创新专项重大项目 |
| |
摘 要: | 为了解决传统卷积神经网络在识别中文语音时预测错误率较高、泛化性能弱的问题,首先以深度卷积神经网络(DCNN)-连接时序分类(CTC)为研究对象,深入分析了不同卷积层、池化层以及全连接层的组合对其性能的影响;其次,在上述模型的基础上,提出了多路卷积神经网络(MCNN)-连接时序分类(CTC),并联合SENet提出了深度SE-MCNN-CTC声学模型,该模型融合了MCNN与SENet的优势,既能加强卷积神经网络的深层信息的传递、避免梯度问题,又可以对提取的特征图进行自适应重标定。最终实验结果表明:SE-MCNN-CTC相较于DCNN-CTC错误率相对降低13.51%,模型最终的错误率达22.21%;算法改进后的声学模型可以有效地提升泛化性能。
|
关 键 词: | 深度学习 语音识别 声学模型 SE-MCNN-CTC |
收稿时间: | 2019-05-06 |
修稿时间: | 2020-02-25 |
本文献已被 CNKI 维普 等数据库收录! |
| 点击此处可从《应用声学》浏览原始摘要信息 |
|
点击此处可从《应用声学》下载免费的PDF全文 |
|