首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于单字特征和搜索引擎的新词识别
引用本文:苏宁,惠子敬,刘娟.基于单字特征和搜索引擎的新词识别[J].武汉大学学报(理学版),2010,56(6).
作者姓名:苏宁  惠子敬  刘娟
作者单位:武汉大学,计算机学院,湖北,武汉,430072
摘    要:新词识别是影响搜索准确率以及速率的重要因素.本文提出了一种基于统计模型和词语搭配的中文新词自动识别方法.采用条件概率的方法提取单字词搭配特征和临界词特征,并采用层次结构实现新词定位以及识别.首先采用双向最大匹配相结合的方法对文本进行词法粗切分,然后根据单字词搭配得到候选新词的位置,用临界词方法确定候选新词的边界,采用改进Nagao串频统计方法对新词候选词在本文内进行重复串统计,对于只在文中出现一次的新词则借助搜索引擎进行确定.对新浪网近期的网络文章进行测试,结果表明,基于本文方法设计的系统可以识别不同领域的新词,在低频词、较长的词以及新词语搭配方面取得了良好的效果.单字词搭配检查发现新词位置综合指标F值达到96.8%.

关 键 词:新词识别  单字词  临界词  搭配抽取  搜索引擎

Chinese New Word Detection Based on One Character Word and Search Engine
SU Ning,HUI Zijing,LIU Juan.Chinese New Word Detection Based on One Character Word and Search Engine[J].JOurnal of Wuhan University:Natural Science Edition,2010,56(6).
Authors:SU Ning  HUI Zijing  LIU Juan
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号