首页 | 本学科首页   官方微博 | 高级检索  
     

一种中文相似重复记录的检测方法
引用本文:王志军,乐嘉锦. 一种中文相似重复记录的检测方法[J]. 东华大学学报(自然科学版), 2005, 31(2): 37-40
作者姓名:王志军  乐嘉锦
作者单位:东华大学计算机科学与技术学院,上海,200051
摘    要:要把数据表中的相似重复记录标识出来,常用的方法是先将所有记录按照某个关键字进行索引,然后在一个固定长度的窗口范围内进行记录的两两比对。这种方法的难点在于关键字的选取标准缺乏通用性,这里提出一种通用的关键字选取方法,然后在一个变长窗口内进行记录的两两比对,以此检测带有编辑错误的中文相似重复记录。

关 键 词:相似重复记录 向量空间 特征向量 欧氏距离
修稿时间:2004-01-05

An Approach for Detecting Approximately Duplicate Records In Chinese
WANG Zhi-jun,LE Jia-jin. An Approach for Detecting Approximately Duplicate Records In Chinese[J]. Journal of Donghua University, 2005, 31(2): 37-40
Authors:WANG Zhi-jun  LE Jia-jin
Abstract:
Keywords:approximately duplicate records    vector space    characteristic vector    Euclidean distance
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号