首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 69 毫秒
1.
基于样本实例的Web信息抽取   总被引:13,自引:1,他引:13  
主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器.  相似文献   

2.
Web信息抽取技术研究进展   总被引:14,自引:0,他引:14  
Web信息抽取技术是当今的一个研究热点.目前出现了基于不同原理的多种信息抽取技术,它们具有不同的性能.本文根据信息抽取的原理,对现有的信息抽取技术进行了分类,结合典型的系统,在语义的附加方式、模式的定义方式、规则的表现形式、语义项的定位方式、对象的定位方式等几方面进行了分析和比较,在此基础上提出了待研究的问题.  相似文献   

3.
以远程教育的信息查询应用背景为例,介绍了如何使用Web Service实现远程教育信息查询的功能,包括数据库的设计、Web Service提供程序的创建、Web Service客户端的创建以及如何防止用户密码在网上的明文传输。  相似文献   

4.
随着互联网技术的快速发展,Web信息呈现爆炸性增长,人们发现用信息检索的方法不能及时的得到想要的信息,于是出现了信息抽取,Web信息抽取是指从Web文档中自动抽取感兴趣信息的过程。本文主要介绍Web信息抽取的研究现状及抽取工具和抽取方法。  相似文献   

5.
Web信息抽取是近十年来发展起来的一门数据挖掘技术。主要介绍信息抽取的概念和任务,并给出了Web信息抽取的评价指标和信息抽取的原理,最后提出了当前Web信息抽取方法中存在的问题以及以后研究的重点。  相似文献   

6.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

7.
章介绍了基于XML和ASP的Web信息集成技术,并就Web信息集成的几个重要问题进行了阐述。随着Web搜索引擎和数据挖掘的迅速发展,该技术将会得到更大的发展。  相似文献   

8.
基于Web的数据库模糊优化查询   总被引:1,自引:0,他引:1  
由于目前大型的Internet结点日益数据库化,同时,传统的数据库系统向Internet平台转移,针对Web数据库访问模型,提出一种基于Web的数据库模糊优化查询法,以适应网上普通用户信息查询需求,能较有效地改善网上信息查询查准率低的状况。  相似文献   

9.
为了在浩渺的信息海洋中快速、准确查找到用户所需的信息,各搜索引擎一般都提供了先进的检索和筛选技术,用户可以通过提炼查询关键词、用好逻辑运算符、精确或模糊匹配、限定文档类别或来源、垂直搜索等技巧来有效地查询信息。  相似文献   

10.
基于安全XML的信息查询系统   总被引:1,自引:0,他引:1  
XML具有自描述、开放、易扩展等突出的特性,已成为Web数据组织和交换的标准。在XML成为Web应用中广泛使用的编码方式时,许多针对XML安全性的研究工作也开展了起来。基于B/S的三层体系结构,开发了基于XML的信息查询系统,采用安全XML技术代替传统的HTML技术,实现了表示层和逻辑层之间的数据传输功能。  相似文献   

11.
对Web网页的查询及信息提取   总被引:4,自引:0,他引:4       下载免费PDF全文
比较Web查询与传统数据库查询的区别 ,提出一种对Web查询计算的新模型 ,基于这一模型 ,可针对网页结构和内容进行查询 ,再根据HTML的特点 ,从网页中提取数据库数据 .  相似文献   

12.
元搜索引擎的设计与实现   总被引:4,自引:0,他引:4  
元搜索引警是一种依赖多个剖搜索引擎的信息查询工具,主要介绍了元搜索引擎的体系结构和使用Java Servlet技术实现的技术要点,最后结合运行结果讨论了引擎的性能。  相似文献   

13.
智能信息检索代理结构   总被引:2,自引:0,他引:2  
信息过载已成为Internet用户信息检索时的最大难题,利用智能信息检索代理技术可解决这些问题.在对智能代理特征(主要包括智能搜索,导航向导,自动通告,个人信息管理,动态个人化网页,以及页面辅助阅读工具等)进行分析的基础上,参照模块化的代理结构,讨论了智能Agent的各组成模块功能和各个模块在实现不同功能时的组织方法.经过初步实践表明,智能Agent用于提高信息检索效率和减小网络信息过载是可行和有效的.  相似文献   

14.
基于WEB的数据挖掘研究综述   总被引:5,自引:0,他引:5  
运用数据挖掘技术进行Web数据挖掘成为数据分析领域中的一个重要研究热点,与传统数据相比较,Web数据具有结构复杂、形式多样与内容广泛等特点,且用户对其需求亦是五花八门的,这对数据分析领域提出了更大的挑战.基于为研究Web数据挖掘提供参考,将Web数据挖掘粗略地分为三类:内容挖掘、结构挖掘和使用挖掘,并分别进行了综述,然后根据当前的应用现状分析了这一研究领域的几个研究方向.  相似文献   

15.
利用Lucene开源全文本搜索技术框架建立了校园搜索引擎,设计并实现了资源采集、信息检索、数据检索等模块,完成了一个基于Lucene的搜索引擎的应用,改进后的基于Lucene的校园搜索引擎能满足校园用户的需要并提升了搜索的准确性.  相似文献   

16.
分类Cache库在Web查询系统中的应用   总被引:5,自引:0,他引:5  
利用分类Cache库技术可以解决对已检索到的Web信息的再利用问题,通过使用分类Cache库,不但可以减少重复检索Web的次数,提高查询系统的效率,而且还可以对已检索到的Web信息实现基于语义的精确查询,提高系统的查询精确度.重点介绍了Web查询系统中分类Cache库的构造、管理与维护.  相似文献   

17.
网络信息计量学在互联网上的应用研究   总被引:6,自引:0,他引:6  
随着互联网的普及,越来越多的信息来源于网络,文章介绍了网络信息计量学的概念,产生与发展,概述了网络信息计量学的应用,并对其存在的问题作了初步的探讨。  相似文献   

18.
利用Lucene开源全文本搜索技术框架建立了校园搜索引擎,设计并实现了资源采集、信息检索、数据检 索等模块,完成了一个基于Lucene的搜索引擎的应用,改进后的基于Lucene的校园搜索引擎能满足校园用户的需 要并提升了搜索的准确性.  相似文献   

19.
在校园网已经成为Internet一部分的今天,构建和谐校园网,不仅需要对校园网内部进行有效的管理,同时还需要动态掌握Internet上的信息,避免不良信息入侵校园为校园管理带来安全隐患.研究了如何通过主题网络爬虫技术实现高校网络信息动态搜索和监控,方便网络管理者及时、有针对性地获取互联网上的相关信息.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号