基于BERT的阅读理解式标书文本信息抽取方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于BERT的阅读理解式标书文本信息抽取方法

作者姓名：	涂飞明刘茂福夏旭张耀峰

作者单位：	1. 武汉科技大学计算机科学与技术学院;2. 智能信息处理与实时工业系统湖北省重点实验室;3. 湖北经济学院湖北数据与分析中心

基金项目：	湖北省教育厅科研重点项目（20192202）；

摘要：	针对标书文本重要信息的抽取需求，提出一种基于BERT(bidirectional encoder representations from transformers)的阅读理解式标书文本信息抽取方法。该方法将信息抽取任务转换为阅读理解任务，根据标书文本内容，生成对应问题，再抽取标书文本片段作为问题答案。利用BERT预训练模型，得到强健的语言模型，获取更深层次的上下文关联。相比传统的命名实体识别方法，基于阅读理解的信息抽取方法能够很好地同时处理非嵌套实体和嵌套实体的抽取，也能充分利用问题所包含的先验语义信息，区分出具有相似属性的信息。从中国政府采购网下载标书文本数据进行了实验，本文方法总体EM(exact match)值达到92.41%,F1值达到95.03%。实验结果表明本文提出的方法对标书文本的信息抽取是有效的。
关键词：	标书文本阅读理解信息抽取 BERT(bidirectional encoder representations from transformers)