首页 | 本学科首页   官方微博 | 高级检索  
     检索      

微博语料分词及标注方法初探
引用本文:于清,阿里甫·库尔班.微博语料分词及标注方法初探[J].新疆大学学报(理工版),2013(1):81-86.
作者姓名:于清  阿里甫·库尔班
作者单位:新疆大学信息科学与工程学院
基金项目:国家自然科学基金(61163029)
摘    要:本文将清华大学中文分词和词性标注系统应用于部分微博语料数据,检测系统对微博新词识别能力及对识别错误进行了分类总结,并对识别率低的新词制定了标注规范。通过人工校对获得新的训练语料数据集,提高系统对微博文本的处理能力,为建立微博专用语料库做前期准备工作。

关 键 词:分词  标注系统  专有名词  新词  微博语料库

Preliminary Study of Chinese Word Segmentation and Part-of-Speech Tagging Being Used for Microblog Data
Institution:YU Qing,Alifu Kuerban(College of Information and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China)
Abstract:
Keywords:
本文献已被 CNKI 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号