首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
针对元搜索的重复网页问题,提出基于元搜索的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的结果网页的URL进行比较,然后对各结果网页的标题进行有关处理,提取出网页的主题信息,再对摘要进行分词,计算摘要的相似度,三者结合能很好的检测出重复网页,实现网页去重。该算法有效,并且比以往算法有明显的优势,更接近人工统计结果。  相似文献   

2.
搜索结果页面的去重处理是提高网页检索结果质量的有效途径,笔者结合二叉排序树设计了一种基于文本抽取的网页正文去重算法,本文给出了该算法的具体实现。实验测试结果表明该算法在判断准确率、时间复杂度方面均具有一定优势,可应用于网络信息检索结果优化处理中的页面正文内容去重。  相似文献   

3.
秦杰 《科学技术与工程》2013,13(8):2250-2253
网页去重具有很重要的实际意义,也是信息检索领域近几年研究的热点。分析现有的网页去重算法,并对经典的DSC(digital syntactic clustering)网页去重算法进行改进。为每篇文档生成一个特征向量集合,用该特征向量集合筛选shin-gles;然后进行相似性比较。实验表明,该算法对重复网页判定具有很好的准确率和召回率。  相似文献   

4.
网页正文提取是WEB挖掘的重要步骤。传统网页正文提取方法都需要经过分块这一步骤之后来识别网页正文块,提出了利用行文本之间的内容相似度和标签相似度结合的方法来提取网页正文。该算法避免了传统网页提取算法的分块步骤,在规范网页之后,先提取网页的最大文本行,然后计算每行文本与最大行的内容相似度和标签相似度,再结合内容相似度与标签相似度来提取网页正文。实验中,利用随机抽取的网页进行了测试,其测试精度接近95%,表明该算法在实际中是有效的。  相似文献   

5.
一种改进的基于树路径匹配的网页结构相似度算法   总被引:1,自引:0,他引:1  
提出一种改进的基于树路径匹配的网页结构相似度算法, 该算法定义了树路径的序列相似度和位置相似度, 找出网页的树路径集合, 通过网页间的最佳树路径匹配计算结构相似度. 实验结果表明, 用改进后的算法计算网页结构相似度比传统树路径匹配方法更符合实际, 更合理有效.  相似文献   

6.
尝试对平行语料库中需要去重的中文句子相似情况作分类,利用整体相似因子和局部相似因子计算句子的相似度,并借鉴KMP算法的匹配跳跃思想,提出中文字符串匹配的类KMP算法,并对算法进行实验验证。结果表明,算法具有较好的效果,能够实现平行语料库中相似句子的去重。算法开放测试的召回率达94%,去重准确率达到84%。算法可以应用于任何长度的语句比对,适用范围广。  相似文献   

7.
基于特征串的网页去重算法   总被引:1,自引:0,他引:1  
用户在互联网中网页检索时,经常会得到大量内容相同的冗余页面,不仅浪费了存储资源,而且给用户带来许多不便。本文对现有的几种重复网页识别技术的优缺点进行了比较,并且重点讨论了基于特征串的网页快速去重算法。  相似文献   

8.
欺骗网页与正常网页有着极其相似的特征,诱导并欺骗用户输入个人机密信息,严重威胁着电子商务正常运行.基于此,提出了一个欺骗网页检测算法.算法首先对网页进行分割,然后提取各个块的特征及其相对位置关系,得到网页特征关系图,并以此计算出两个网页之间的相似度.如果发现可疑网页与某个受保护网页之间的相似度小于预设值,判定该可疑网页为针对受保护网页的欺骗网页.实验结果表明,本算法可以有效检测欺骗网页,具有一定的实用性.  相似文献   

9.
在行人重识别模型中引入邻域数据关系,提出了一种基于图像邻域相似度的重排序方法。首先扩充图像的邻域数据,然后计算图像对不同邻域数据的相似度权重,利用该权重得到代表邻域相似度的分布距离,再用分布距离与原始距离计算得出最终距离作为重排序评判标准。使用CCL,Transreid, Torchreid等行人重识别模型在Market-1501,DukeMTMC-reID数据集上进行实验,结果表明本文方法对基准模型的精度提升均超过该领域的主流算法,证实了本文方法的有效性和泛化性。该重排序方法不需要任何人工交互和额外数据,适用于大规模数据集,可以有效应用于图像检索、目标跟踪等需要考虑相似度关系的任务中。  相似文献   

10.
网页去重在基于Web企业竞争情报平台中的应用与研究   总被引:1,自引:0,他引:1  
互联网上大量重复网页的存在,严重地影响信息的检索质量.因此提出了一种基于特征码散列的网页去重算法,利用特征码对特征语句集散列以缩小其比较的范围,提高了网页去重的准确性.实验表明该算法准确率高,性能良好,基于上述算法实现了基于Web的企业情报竞争平台中的网页去重.  相似文献   

11.
基于Map/Reduce的网页消重并行算法   总被引:1,自引:0,他引:1  
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。  相似文献   

12.
对网页PageRank算法的改进   总被引:19,自引:0,他引:19  
分析了著名搜索引擎Google采用的PageRank算法,指出其偏重旧网页,忽视专业站点以及对网页中的超链接评估不恰当等不足之处。改进算法考察了网页日期这一重要因素,并重新计算网页中超链接对网页的影响。网页结构中蕴涵着丰富的信息,在href,title等标记中文字对网页主题有重要作用,利用结构标记可以辅助判断网页的主题内容。试验结果表明,采用改进的算法可以提高判断网页重要性的准确度。  相似文献   

13.
元搜索引擎的设计与实现   总被引:4,自引:0,他引:4  
元搜索引警是一种依赖多个剖搜索引擎的信息查询工具,主要介绍了元搜索引擎的体系结构和使用Java Servlet技术实现的技术要点,最后结合运行结果讨论了引擎的性能。  相似文献   

14.
面向主题的网页搜索系统   总被引:13,自引:0,他引:13  
论述了一个面向主题的网页搜索系统(SATWP),该系统与智能代理的辅助下具有搜索,导航,以及信息反馈等功能。在判断网页与查询主题的相关度时改变了单纯的从网页内容上考虑的方法,即从网页自身的URL,网页间的关系以及网页的内容来判断。SATWP采用在客户端的智能代理记录用户的浏览行为,并把有关信息反馈给服务器,服务器根据这些信息随时调整数据库中相关网页的重要性顺序,增加了自身的学习功能,试验结果表明,该系统具有较高的准确度。  相似文献   

15.
采用文献计量的方法,以学术论文为研究对象,从文献年代分布、情报源分析、作者分布和文献分类几个角度对元搜索引擎的发展情况进行了统计分析,梳理了元搜索引擎领域的发展脉络,并进一步探索了这一领域的发展趋势。  相似文献   

16.
阐述了元搜索引擎研究评价的必要性,总结和分析了国外元搜索引擎的评价研究现状,对元搜索引擎提出了一些建议.  相似文献   

17.
为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法.  相似文献   

18.
徐长春 《科技信息》2009,(3):78-78,113
网页设计的人性化问题是当前网页设计界一直都在探讨的问题,但是大都停留在功能、技术方面的实践,而忽略了艺术层面的人性化关照。本文依据设计的美学原则,从色彩搭配、版式设计、页面格调等方面进行阐述,旨在使网页设计者能够对艺术因素方面有所重视,使网页设计能够真正的达到技术性与艺术性的完美结合.发挥网络的更大功效。  相似文献   

19.
讨论了智能专题搜索引擎的相关设计和实现,通过信息搜索技术、自然语言理解技术、语义网络技术以及数据挖掘技术的引入,改进了传统搜索引擎的搜索结构,进而采用这些技术实现了一个专题搜索的实例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号