高质量的材料科学文本挖掘数据集构建方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

高质量的材料科学文本挖掘数据集构建方法

作者姓名：	刘悦刘大晖葛献远杨正伟马舒畅邹喆乂施思齐

作者单位：	1. 上海大学计算机工程与科学学院;2. 上海市智能计算系统工程技术研究中心;3. 湘潭大学材料科学与工程学院;4. 上海大学材料科学与工程学院;5. 上海大学材料基因组工程研究院

基金项目：	国家重点研发计划(批准号:2021YFB3802101);;国家自然科学基金(批准号:92270124,52073169,52102313)资助的课题~~;

摘要：	科学文献中蕴含的大量历史数据和经验知识,对材料设计与研发具有重要参考价值.文本挖掘尽管能高效地探索并利用被存储在海量科学文献中的信息,但高质量文本数据的获取困难阻碍了其在材料领域更广泛的应用.本文从品质和数量双视角剖析了材料领域的文本数据质量问题及其相关研究工作,提出高质量的材料科学文本挖掘数据集构建方法.该方法通过可溯源的文献自动获取方案确保文本数据的源头可追溯;以下游任务为驱动对文献进行预处理以提升预标注文本语料的质量;基于材料四面体准则定义适配全体系的标签注释方案以完成对语料的高品质标注;利用融合材料领域知识的有条件文本数据增强模型实现材料文本数据量的扩充.在不同体系数据集上的实验结果表明,该方法可有效地提升下游文本挖掘模型的预测精度,其中在NASICON型固态电解质材料实体识别任务上的F1值达84%.本文为文本挖掘在材料领域的深入应用提供理论指导和解决方案,并有望推进数据与知识双向驱动的材料设计与研发.
关键词：	材料科学文本挖掘数据增强数据质量

设为首页 | 免责声明 | 关于勤云 | 加入收藏