首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
为了进一步提升语义检索的精度和改善用户体验,提出了一种基于多分类语义分析和个性化的语义检索方法.首先,利用改进的多分类语义分析方法实现目标文档的向量化,并建立词向量库;然后,利用支持向量机对文档进行分类,并结合文档类别生成标签索引.在检索时,根据词向量库的引导,使用用户历史检索记录和个人信息优化检索结果.实验结果显示,基于该方法的系统的检索精度、平均DCG和nDCG指标值分别达到0.7,7.267和0.890,较基于Lucene方法和Yahoo Directory方法所得结果的均值分别高出31%,36%和19%.在时间复杂度上,每次检索的平均耗时为0.669 s,较Lucene方法仅增加了0.326 s.由此可见,该方法提高了检索的精度和综合相关度,且额外的时间消耗较少.  相似文献   

2.
基于分类和聚类相结合的个性化检索方法研究   总被引:1,自引:0,他引:1  
目前检索工具的设计大多面向所有用户,而没有考虑到用户个人的兴趣,导致查准率较低。由此提出一种基于分类和聚类相结合的个性化信息检索方法。该方法首先利用聚类技术,对用户的历史浏览记录进行聚类,产生一个初步的用户兴趣分类,然后根据ODP对用户兴趣分类进行调整得到最终的用户兴趣分类,并利用该分类对传统搜索引擎返回的结果进行分类,以产生有意义的分类搜索结果。该方法克服了单独利用分类或聚类技术的局限性,提高了搜索引擎的可用性。  相似文献   

3.
针对中文网页分类问题,提出一种基于KM和CV的KNN改进算法——KNC算法.基于该方法的网页分类实验结果表明,KNC算法在保持分类质量的情况下,较大地提高了分类的速度.  相似文献   

4.
网页分类是使用机器学习算法实现网页类别的自动标注。提出了一种基于SVM的日文网页分类方法,针对日文的特点,设计日文词素词典与规则库,并以此为基础进行日文分词和特征表示,然后使用互信息度进行特征选择,最后应用SVM来构造分类超平面,对日文网页进行分类。最后通过实验进行了验证。  相似文献   

5.
讨论了网页分类过程中数据预处理的相关技术,提出一种网页预处理方法,将网页解析为DOM树结构,通过分析、整理,得到噪音信息的特征,并依据判定规则,找出噪音信息并删除处理。网页去噪后,提取页面中的文本信息和每个相关链接目标URL、源URL及锚文本并存入数据库。实验结果证明,该去噪方法可以有效去除网页噪音,利用所提取的超链接结构信息分类网页,可以有效提高分类精度。  相似文献   

6.
信息检索中,个性化排序在传统的基于内容匹配的排序算法基础上,结合用户兴趣特征,返回更符合用户需求的检索结果.由于用户数据存在稀疏性和兴趣爱好不均衡等问题,用户兴趣偏好模型构建通常不是很精确,检索效果也不佳.本文在前人研究的基础上,提出了一种基于用户类别偏好的个性化排序方法.该方法首先借助词向量技术计算查询词和文档标签集之间的语义相似程度,其次,考虑到用户对不同兴趣的偏好程度不一,通过构建用户兴趣偏好模型,计算出用户对不同兴趣类别的偏好程度,对待查询文档进行个性化处理,以达到个性化排序的目的.在真实数据集上的实验表明,与传统方法相比,本文提出的方法可以有效地改善用户的个性化检索效果.  相似文献   

7.
提出一种基于网页分类和网页加权的网民聚类算法,其基本思想是:先以各个网民对每个网页的点击量为依据,通过模糊等价矩阵聚类法对网页进行分类,并根据网页内容与深度确定网页的加权,即给每个网页一个分数,最后根据这个加权分数再次对网民进行聚类,即使用两次模糊等价矩阵聚类.  相似文献   

8.
网页分类技术   总被引:17,自引:0,他引:17  
网页分类是使用机器学习的方法实现网页类别的自动标注.回顾了文本分类技术的研究状况,分析了网页的结构特征,难点在于结合网页的结构信息选择合理的表示方式和分类算法.使用纯文本分类技术处理网页是不合理的.基于概率模型的方法和关系学习方法计算量大,关系学习方法学习结果的可解释性好,支持向量机方法分类准确率高,但核函数的构造和大规模数据集的训练都是该算法的难题.应该采用多种指标对网页分类算法进行评价.  相似文献   

9.
个性化Web推荐系统是利用用户的浏览行为定制符合用户结构和内容的过程。在综合应用协作过滤和内容过滤方法的基础上,通过对网站网页关键词的评估,提出了一种新的个性化Web推荐算法,研究了基于网页关键词的个性化模型,网站页面中关键词的权重计算,基于协作过滤的新用户推荐,基于内容过滤的再次推荐方法,以及基于用户群的用户兴趣调整方法。实验证明,本算法能够以较高的效率对用户进行网页推荐。  相似文献   

10.
提出一种基于向量空间模型的多层网页分类方法.该方法用主题词、修正主题词和主题概念从3个层次构建网页表示向量,从而在概念层次上更贴近网页的语义,且向量维数低于传统的特征向量.实验结果表明,该方法降低了分类时的计算量,提高了网页分类速度和分类精度.  相似文献   

11.
随着互联网信息多样化和爆炸式的发展,人们面临着"信息迷航"和"信息过载"的困扰;当代社会对信息检索的需求不仅仅局限在通用搜索引擎,更需要针对特定领域设计出个性化搜索引擎。通过分析研究网络搜索引擎的组成结构及利用Lucene构建搜索引擎的方法,在Lucene原有网页排序算法基础上,结合PageRank算法的思想和用户喜好权重,提出更具个性化的网页排序算法,以反馈给用户符合其个性化需求的搜索结果。在.Net开发平台,利用C#语言,结合几种开源API,完成了个性化网络搜索引擎系统的设计与实现。系统界面设计采用了XAML及Ajax技术,搜索结果显示模块采用异步传输技术,使用户界面更加友好。通过测试和分析,系统实现了个性化搜索,用户不翻页也可以查看全部搜索内容,用户的体验度得到了提升。下一步将增加爬虫对于网络错误信息的处理及对于病毒网站的过滤功能。  相似文献   

12.
对传统的信息搜索模型存在的弊端进行分析总结,在此基础上深入分析和研究移动agent技术,从而利用此技术来构造一种新型的web信息搜索系统的模型。将移动agent技术应用到web信息搜索中,可以节约大量的网络带宽,并且移动agent在服务器上执行时,不需要与客户机持续的连接,具有更大的灵活性和可靠性。  相似文献   

13.
针对如何把个性化信息加入到搜索结果排序中, 提出一种基于决策树的可量化用户个性化信息的方法, 并根据用户的搜索关键词与用户的个性化信息, 预测用户的搜索意图, 把预测结果融合在排序结果中, 解决了传统检索模型无法有效加入用户个性化信息的缺陷. 实验结果表明, 加入个性化信息后的排序结果准确性明显提升, 从而改善了用户对搜索引擎的体验.  相似文献   

14.
基于XML的站内搜索引擎的实现研究   总被引:4,自引:0,他引:4  
分析了传统基于HTML的站内搜索引擎的不足和目前XML技术的特点,提出了一种利用XML文档保存查询信息、通过DOM解析文档、采用Xpath实现检索的站内搜索引擎的实现模式,并具体阐述了这种基于XML的站内搜索引擎的技术实现方式。  相似文献   

15.
用户在Web 上检索信息时,通常使用门户网站所提供的搜索引擎工具,但目前的搜索引擎普遍存在查全率和查准率低、不具备个性化等问题.论文对新一代个性化智能搜索引擎的主要技术进行了研究,提出了智能搜索引擎的总体框架,详细介绍了原型系统--新闻搜索引擎的实现以及其中用到的关键技术.  相似文献   

16.
黄羿  马新强  李丹宁 《贵州科学》2009,27(3):47-50,57
随着Intemet网络的迅猛发展,个性化信息服务越来越成为信息检索领域的研究热点。本文分析了国内外个性化信息服务研究现状,提出了基于综合倒排索引的搜索思想,从关键词、主题词和评语3个角度出发建立综合倒排索引进行全文搜索;达到用户个性化搜索的目的。  相似文献   

17.
Web挖掘技术是将传统的数据挖掘技术与Web技术相结合。本文分析了与Web挖掘有关的几个重要问题,并详细论述了web挖掘在个性化搜索引擎中的应用。  相似文献   

18.
关联规则和聚类分析在个性化推荐中的应用   总被引:12,自引:0,他引:12  
提出了两种应用访问页面关联规则和访问模式聚类分析结果相结合进行个性化推荐的方法,即将聚类分析作为关联规则的预处理和将关联规则和聚类分析互补使用,并与单独应用访问页面关联规则或访问模式聚类分析结果进行个性化推荐时的推荐测度进行了比较·实验表明,将聚类分析作为关联规则的预处理的推荐方法可以显著地提高推荐的准确率,而将关联规则和聚类分析互补使用的推荐方法具有较高的推荐覆盖率·同时发现将聚类分析和关联规则结合使用并不能同时改善推荐的准确率和覆盖率·  相似文献   

19.
一些网页为了更容易被用户检索访问,采用作弊手段欺骗搜索引擎来提高排名。搜索引擎作弊具备多样性和复杂性,而且往往是多种作弊方式相互结合共同作弊,给搜索引擎的反作弊检测带来了不小困难。文章从分析搜索引擎作弊流行原因出发,对当前比较流行的搜索引擎作弊方式进行了初步研究及分类,对作弊的工作过程及方式进行了综述,针对目前每种作弊技术对应的反作弊技术进行了比较分析,并对未来反作弊技术的发展方向进行了展望。  相似文献   

20.
对目前流行的全文检索技术——基于Lucene引擎的全文检索和SQLServer附带的全文检索功能组件Microsoft Search进行了分析研究,实现相应的检索接口,封装为Web服务且集成到使用面向服务架构的分布式仿真资源库中.通过相关性能测试,验证了全文检索接口封装为Web服务并应用于面向服务架构的可行性,结果表明基于Lucene的检索服务总体性能优于基于Microsoft Search的检索服务.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号