首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于行业词表的自动语音转写后优化技术
引用本文:马晓亮,安玲玲,邓从健,杜德泉,张国新.基于行业词表的自动语音转写后优化技术[J].华南理工大学学报(自然科学版),2023(8):118-125.
作者姓名:马晓亮  安玲玲  邓从健  杜德泉  张国新
作者单位:1. 西安电子科技大学广州研究院;2. 中国电信股份有限公司广州分公司;4. 广州云趣信息科技有限公司;5. 中国电信股份有限公司广东分公司
基金项目:国家重点研发计划项目(2022YFB3102700);;国家自然科学基金重点资助项目(62132013)~~;
摘    要:自动语音识别(ASR)技术目前已发展得较为成熟,通用ASR引擎已经广泛应用于交通、医疗、通信等行业。但是,由于行业专有词汇在大规模训练语料库中呈非独立同态分布,通用ASR引擎在各细分行业转写时存在对行业专有词汇识别准确率低的问题。相较于互联网环境的16 kHz音频采样率,电话呼叫中心语音为窄带低采样(采样率8 kHz),转写后精度下降尤为明显。为了提高行业词汇的语音转写准确率,文中提出一种基于行业词表的ASR转写后优化技术。首先,对语料库文本数据分别采用卷积神经网络模型和深度神经网络BERT模型进行预测分词,生成行业纠错词表。随后,在生产环境中,使用通用ASR引擎对电话呼叫语音数据进行初始转写。然后,对一次转写后的文本,通过Soft-Masked BERT模型结合纠错词表实现文本数据的纠错,从而提高语音识别准确率。使用广州12345热线客服通话语音数据进行训练和测试,结果表明,使用文中的转写后优化技术可以将通用ASR引擎的行业用词转写准确率提高约10个百分点,且纠错速度较快,具有良好的适用性。

关 键 词:文本纠错  语音识别  客服通话  行业纠错词表  卷积神经网络
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号