首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于BERT模型的无监督候选词生成及排序算法
引用本文:张俊,陈秀宏.基于BERT模型的无监督候选词生成及排序算法[J].南京大学学报(自然科学版),2022(2):286-297.
作者姓名:张俊  陈秀宏
作者单位:1. 江南大学人工智能与计算机学院;2. 江苏省媒体设计与软件技术重点实验室江南大学人工智能与计算机学院
基金项目:江苏省研究生科研与实践创新计划(JNKY19_074);
摘    要:词汇简化的目的是在保持句子原始语义的前提下用更易于理解的简单词替代复杂词,同时使语句保持流畅.传统方法依赖人工标记的数据集或者只关注复杂词本身而未能有效地关注复杂词的上下文,导致生成的候选词不符合上下文语境.为了解决上述两个问题,提出一种基于BERT(Bidirectional Encoder Representations from Transformers)模型的无监督候选词生成及排序算法Pretrained-LS,还同时考虑了复杂词和上下文.在候选词生成阶段,Pretrained-LS利用BERT模型生成候选词;在候选词排序阶段,除了常见的词频和BERT预测顺序排序特征,Pretrained-LS提出BERT词嵌入表示语义相似度、基于Roberta(A Robustly Optimized BERT Pretraining Approach)向量的上下文相似度以及常见词复杂分数字典三个排序特征.实验中,在候选词生成阶段,Pretrained-LS采用广泛使用的精确率P、召回率R以及两者的调和平均值F作为评价标准,在候选词排序阶段同样采用精确率P以及准确率A作为评价标准.在三个英语...

关 键 词:词汇简化  预训练模型  候选词生成  候选词排序
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号