首页 | 本学科首页   官方微博 | 高级检索  
     

基于距离的自适应Web数据库记录匹配方法
作者姓名:崔晓军  肖红宇  丁立新
作者单位:1.温州科技职业学院信息技术系;2.武汉大学软件工程国家重点实验室
基金项目:国家自然科学基金,高等学校博士学科点专项科研基金,中央高校基本科研业务费专项资金
摘    要:Web数据库环境的重复记录识别是Deep Web信息集成的重要步骤,具有查询依赖性、缺乏训练样本、在线处理要求等特征,导致现有的实体识别技术无法适用.在分析现有方法基础上,引入动态属性权重调整思想,提出基于距离的自适应记录匹配算法,在计算记录对的相似度时,加大匹配记录集合中相似度较大的属性的权重,并加大非匹配记录集合中相似度较小的属性的权重,迭代处理从而达到自适应动态调整各个属性权重的目标.该方法不需要训练样本,也不需要人工参与,实验结果表明其适用于Web数据库环境的重复记录识别处理.

关 键 词:Web数据库  记录匹配  实体识别  比较向量  权重向量
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《武汉大学学报(理学版)》浏览原始摘要信息
点击此处可从《武汉大学学报(理学版)》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号