基于密集连接时延神经网络的说话人识别算法* |
| |
作者姓名: | 和椿皓 常铁原 潘立冬 王珺 |
| |
作者单位: | 河北大学电子信息工程学院,河北大学电子信息工程学院,河北大学电子信息工程学院,河北大学电子信息工程学院 |
| |
基金项目: | 开放场景下基于时空层次图卷积网络的行人跟踪算法研究(河北省自然科学基金(F2022201013)) |
| |
摘 要: | 说话人识别技术是一项重要的生物特征识别技术。近年来,使用深度神经网络提取发声特征的说话人识别算法取得了突出成果。时延神经网络作为其中的典型代表之一已被证明具有出色的特征提取能力。为进一步提升识别准确率并节约计算资源,通过对现有的说话人识别算法进行研究,提出一种带有注意力机制的密集连接时延神经网络用于说话人识别。密集连接的网络结构在增强不同网络层之间的信息复用的同时能有效控制模型体积。通道注意力机制和帧注意力机制帮助网络聚焦于更关键的细节特征,使得通过统计池化提取出的说话人特征更具有代表性。实验结果表明,在VoxCeleb1测试数据集上取得了1.40%的等错误率(EER)和0.15的最小检测代价标准(DCF),证明了在说话人识别任务上的有效性。
|
关 键 词: | 说话人识别 深度学习 神经网络 密集连接 注意力机制 |
收稿时间: | 2022-11-17 |
修稿时间: | 2024-03-04 |
|
| 点击此处可从《应用声学》浏览原始摘要信息 |
|
点击此处可从《应用声学》下载免费的PDF全文 |
|