基于单字特征和搜索引擎的新词识别 Chinese New Word Detection Based on One Character Word and Search Engine期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于单字特征和搜索引擎的新词识别

引用本文：	苏宁,惠子敬,刘娟.基于单字特征和搜索引擎的新词识别[J].武汉大学学报(理学版),2010,56(6).

作者姓名：	苏宁惠子敬刘娟

作者单位：	武汉大学,计算机学院,湖北,武汉,430072

摘要：	新词识别是影响搜索准确率以及速率的重要因素.本文提出了一种基于统计模型和词语搭配的中文新词自动识别方法.采用条件概率的方法提取单字词搭配特征和临界词特征,并采用层次结构实现新词定位以及识别.首先采用双向最大匹配相结合的方法对文本进行词法粗切分,然后根据单字词搭配得到候选新词的位置,用临界词方法确定候选新词的边界,采用改进Nagao串频统计方法对新词候选词在本文内进行重复串统计,对于只在文中出现一次的新词则借助搜索引擎进行确定.对新浪网近期的网络文章进行测试,结果表明,基于本文方法设计的系统可以识别不同领域的新词,在低频词、较长的词以及新词语搭配方面取得了良好的效果.单字词搭配检查发现新词位置综合指标F值达到96.8%.
关键词：	新词识别单字词临界词搭配抽取搜索引擎
Chinese New Word Detection Based on One Character Word and Search Engine

SU Ning,HUI Zijing,LIU Juan.Chinese New Word Detection Based on One Character Word and Search Engine[J].JOurnal of Wuhan University:Natural Science Edition,2010,56(6).

Authors:	SU Ning HUI Zijing LIU Juan

Abstract:

Keywords:
本文献已被 CNKI 万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏