首页 | 本学科首页   官方微博 | 高级检索  
     检索      

高质量的材料科学文本挖掘数据集构建方法
引用本文:刘悦,刘大晖,葛献远,杨正伟,马舒畅,邹喆乂,施思齐.高质量的材料科学文本挖掘数据集构建方法[J].物理学报,2023(7):128-141.
作者姓名:刘悦  刘大晖  葛献远  杨正伟  马舒畅  邹喆乂  施思齐
作者单位:1. 上海大学计算机工程与科学学院;2. 上海市智能计算系统工程技术研究中心;3. 湘潭大学材料科学与工程学院;4. 上海大学材料科学与工程学院;5. 上海大学材料基因组工程研究院
基金项目:国家重点研发计划(批准号:2021YFB3802101);;国家自然科学基金(批准号:92270124,52073169,52102313)资助的课题~~;
摘    要:科学文献中蕴含的大量历史数据和经验知识,对材料设计与研发具有重要参考价值.文本挖掘尽管能高效地探索并利用被存储在海量科学文献中的信息,但高质量文本数据的获取困难阻碍了其在材料领域更广泛的应用.本文从品质和数量双视角剖析了材料领域的文本数据质量问题及其相关研究工作,提出高质量的材料科学文本挖掘数据集构建方法.该方法通过可溯源的文献自动获取方案确保文本数据的源头可追溯;以下游任务为驱动对文献进行预处理以提升预标注文本语料的质量;基于材料四面体准则定义适配全体系的标签注释方案以完成对语料的高品质标注;利用融合材料领域知识的有条件文本数据增强模型实现材料文本数据量的扩充.在不同体系数据集上的实验结果表明,该方法可有效地提升下游文本挖掘模型的预测精度,其中在NASICON型固态电解质材料实体识别任务上的F1值达84%.本文为文本挖掘在材料领域的深入应用提供理论指导和解决方案,并有望推进数据与知识双向驱动的材料设计与研发.

关 键 词:材料科学文本挖掘  数据增强  数据质量
点击此处可从《物理学报》浏览原始摘要信息
点击此处可从《物理学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号