基于复述增广的医疗领域机器翻译 Paraphrase Based Data Augmentation For Chinese-English Medical Machine Translation期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于复述增广的医疗领域机器翻译

引用本文：	安波, 龙从军. 基于复述增广的医疗领域机器翻译[J]. 电子与信息学报, 2022, 44(1): 118-126. doi: 10.11999/JEIT210926

作者姓名：	安波龙从军

作者单位：	中国社会科学院民族学与人类学研究所北京 100081

基金项目：	国家自然科学基金(62076233)，中国社会科学院重大创新工程项目(2020YZDZX01-2)

摘要：	医疗机器翻译对于跨境医疗、医疗文献翻译等应用具有重要价值。汉英神经机器翻译依靠深度学习强大的建模能力和大规模双语平行数据取得了长足的进步。神经机器翻译通常依赖于大规模的平行句对训练翻译模型。目前，汉英翻译数据主要以新闻、政策等领域数据为主，缺少医疗领域的数据，导致医疗领域的汉英机器翻译效果不佳。针对医疗垂直领域机器翻译训练数据不足的问题，该文提出利用复述生成技术对汉英医疗机器翻译数据进行增广，扩大汉英机器翻译的规模。通过多种主流的神经机器翻译模型的实验结果表明，通过复述生成对数据进行增广可以有效地提升机器翻译的性能，在RNNSearch, Transformer等多个主流模型上均取得了6个点以上的BLEU值提升，验证了复述增广方法对领域机器翻译的有效性。同时，基于MT5等大规模预训练语言模型可以进一步地提升机器翻译的性能。
关键词：	神经机器翻译汉英翻译复述生成数据增广大规模预训练语言模型
收稿时间：	2021-09-01
修稿时间：	2021-11-30
Paraphrase Based Data Augmentation For Chinese-English Medical Machine Translation

AN Bo, LONG Congjun. Paraphrase Based Data Augmentation For Chinese-English Medical Machine Translation[J]. Journal of Electronics & Information Technology, 2022, 44(1): 118-126. doi: 10.11999/JEIT210926

Authors:	AN Bo LONG Congjun

Affiliation:	Institute of Ethnology and Anthropology, Chinese Academy of Social Sciences, Beijing, 100081, China

Abstract:	Medical machine translation is of great value for cross-border medical translation. Chinese to English neural machine translation has made great progress based on deep learning, powerful modeling ability and large-scale bilingual parallel data. Neural machine translation relies usually on large-scale parallel sentence pairs to train translation models. At present, Chinese-English translation data are mainly in the fields of news, policy and so on. Due to the lack of parallel data in the medical field, the performance of Chinese to English machine translation in the medical field is not compromising. To reduce the size of parallel data for training medical machine translation models, this paper proposes a paraphrase based data augmentation mechanism. The experimental results on a variety of neural machine translation models show that data augmentation through paraphrase augmentation can effectively improve the performance of medical machine translation, and has achieved consistency improvements on mainstream models such as RNNSearch and Transformers, which verifies the effectiveness of paraphrase augmentation method for domain machine translation. Meanwhile, the medical machine translation performances could be further improved based on large-scale pre-training language model, such as MT5.

Keywords:	Neural machine translation Chinese to English translation Paraphrase generation Data augmentation Large scale pre-traing language model
本文献已被万方数据等数据库收录！
	点击此处可从《电子与信息学报》浏览原始摘要信息
	点击此处可从《电子与信息学报》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏