微博语料分词及标注方法初探 |
| |
引用本文: | 于清,阿里甫·库尔班. 微博语料分词及标注方法初探[J]. 新疆大学学报(理工版), 2013, 0(1): 81-86 |
| |
作者姓名: | 于清 阿里甫·库尔班 |
| |
作者单位: | 新疆大学信息科学与工程学院 |
| |
基金项目: | 国家自然科学基金(61163029) |
| |
摘 要: | 本文将清华大学中文分词和词性标注系统应用于部分微博语料数据,检测系统对微博新词识别能力及对识别错误进行了分类总结,并对识别率低的新词制定了标注规范。通过人工校对获得新的训练语料数据集,提高系统对微博文本的处理能力,为建立微博专用语料库做前期准备工作。
|
关 键 词: | 分词 标注系统 专有名词 新词 微博语料库 |
Preliminary Study of Chinese Word Segmentation and Part-of-Speech Tagging Being Used for Microblog Data |
| |
Affiliation: | YU Qing,Alifu Kuerban(College of Information and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China) |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 CNKI 维普 等数据库收录! |
|