摘 要: | 由于语音的复杂与多变,传统声学方法并不能很好地提取出语音的公共特征,容易受到训练数据中说话人发声特点差异的影响,造成模型的不稳定并影响其精度。针对这一问题,文章提出利用语音特征的聚类中心替代原语音特征进行BERT模型预训练的方法,通过与普通BERT模型对比在自动语音识别(Automatic Speech Recognition,ASR)下游任务的表现,证明了对语音特征进行的聚类操作在聚类中心数量合适的情况下,聚类后的BERT模型拥有更好地下游任务契合度,聚类中心数量为100的预训练模型错词率比普通预训练模型降低了2.32%。
|