首页 | 本学科首页   官方微博 | 高级检索  
     

Deep Web爬虫研究与设计
引用本文:郑冬冬,赵朋朋,崔志明. Deep Web爬虫研究与设计[J]. 清华大学学报(自然科学版), 2005, 45(9): 1896-1902
作者姓名:郑冬冬  赵朋朋  崔志明
作者单位:苏州大学,计算机科学与技术系,苏州,215006;苏州大学,计算机科学与技术系,苏州,215006;苏州大学,计算机科学与技术系,苏州,215006
基金项目:Deep Web关键技术研究
摘    要:随着Web的发展,越来越多的数据可以通过表单提交来获取,这些表单提交所产生信息是由Deep Web后台数据库动态产生的.在这种情况下,信息集成就更加需要Web爬虫来自动获取这些页面以进一步地处理数据.为了帮助用户完成这样的任务,提出一种用于搜集Deep Web页面的爬虫的设计方法.此方法使用一个预定义的领域本体知识库来识别这些页面的内容,同时利用一些来自Web站点的导航模式来识别自动填写表单时所需进行的路径导航.通过对来自不同领域的Deep Web站点的大量实验,验证了此方法是非常有效的.

关 键 词:Deep Web  导航模式  领域本体知识库  爬虫
文章编号:1000-0054(2005)S1-1896-07
修稿时间:2005-05-20

On the research and design of deep web crawler
ZHENG Dongdong,ZHAO Pengpeng,CUI Zhiming. On the research and design of deep web crawler[J]. Journal of Tsinghua University(Science and Technology), 2005, 45(9): 1896-1902
Authors:ZHENG Dongdong  ZHAO Pengpeng  CUI Zhiming
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号