数据标注方法比较研究:以依存句法树标注为例 |
| |
引用本文: | 周明月,龚晨,李正华,张民.数据标注方法比较研究:以依存句法树标注为例[J].清华大学学报(自然科学版),2022(5):908-916. |
| |
作者姓名: | 周明月 龚晨 李正华 张民 |
| |
作者单位: | 苏州大学计算机科学与技术学院 |
| |
基金项目: | 国家自然科学基金面上项目(61876116,62176173); |
| |
摘 要: | 数据标注最重要的考虑因素是标注数据质量和标注成本。该文调研发现自然语言处理领域的数据标注工作通常采用机标人校的标注方法以降低成本,但很少有工作严格对比不同标注方法,以探讨标注方法对标注质量和成本的影响。该文依托一个成熟的标注团队,以依存句法树标注为案例,实验对比了机标人校、双人独立标注及该文通过融合前两种方法所提出的人机独立标注方法,结果发现:人机独立标注能有效结合机标人校和双人独立标注的优点,在利用机器降低标注成本的同时解决了校对者的认同倾向问题,从而提高了标注质量。
|
关 键 词: | 数据标注 人机独立标注 机标人校 双人独立标注 |
|
|