应用ResNet和CatBoost检测重放语声* |
| |
作者姓名: | 孙晓川 付景昌 宋晓婷 宗利芳 李志刚 |
| |
作者单位: | 华北理工大学 人工智能学院,华北理工大学 人工智能学院,华北理工大学 人工智能学院,华北理工大学 人工智能学院,华北理工大学 人工智能学院 |
| |
基金项目: | 河北省高等学校科学技术研究项目资助(ZD2021088);国家重点研发计划项目(2017YFE0135700); |
| |
摘 要: | 针对短语声指令声频信息少、不适用句子级重放语声检测的问题以及近距离录声后用高质量重放设备重放的语声难以检测的问题,提出了一种适用于词级重放语声检测的模型。首先,利用短时傅里叶变换、低频平均能量计算和帧排序等方法选择声频帧,然后提取这些帧的伽马通频率倒谱系数。其次,用基于自注意机制的残差网络模型进一步提取伽马通频率倒谱系数中的信息,并转化为特征向量。最后,将提取后的特征向量用CatBoost分类,从而提高检测性能。在POCO数据集上的实验结果表明,提出的方法可以以87.54%的准确率和12.53%的等错误率检测重放语声,优于基线和现有的方法。该文提出的方法在ASVspoof2019 PA数据集上的等错误率与串联检测代价函数分别为4.92%和0.1418,证明该文方法也适用于多种设置的重放语声检测。
|
关 键 词: | 重放语音检测 气爆杂声 残差网络 CatBoost |
收稿时间: | 2022-03-21 |
修稿时间: | 2023-06-28 |
|
| 点击此处可从《应用声学》浏览原始摘要信息 |
|
点击此处可从《应用声学》下载免费的PDF全文 |
|