首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
频繁项集的挖掘是数据挖掘中的一个基础和核心问题,具有广泛的应用领域。而频繁项集挖掘可分为完全频繁项集挖掘、频繁闭项集挖掘和最大频繁项集挖掘三类,其中,最大频繁项集的数目最少。频繁项集的挖掘是一个搜索问题,剪枝优化技术是提高频繁项集挖掘效率的一个重要手段。对于最大频繁项集的挖掘可以从宽度优先和深度优先两个角度来考虑,而基于FP树的深度优先算法比宽度优先算法扫描数据集的次数要少很多,因此,具有较好的性能。本文主要分析宽度优先的最大频繁项集挖掘算法和基于FP树的深度优先最大频繁项集挖掘算法。  相似文献   

2.
吴六爱  刘应东 《信息技术》2011,(11):16-18,23
高效地找出所有的频繁项集是关联规则挖掘中的核心问题。通过对已有的基于矩阵的频繁项集挖掘算法的研究,提出一种基于团的频繁项集快速生成算法。该算法采用关联图存储频繁两项集信息,找关联图中团,逐步减少团中项来搜索所有最大频繁项集,并且其扫描数据库仅需一次。通过使用标准数据集进行验证测试并与其他算法进行比较,实验结果表明,该算法具有较快的挖掘速度。  相似文献   

3.
4.
最大频繁项集的高效挖掘   总被引:6,自引:5,他引:6  
提出了一种基于布尔矩阵的最大频繁项集挖掘算法MBA(Mining Boolean Array for maximal frequent itemsets),通过将FP-tree映射成布尔矩阵和权值表,运用布尔逻辑运算进行矩阵投影操作得到最大频繁项集。运算效率得到很大提高。  相似文献   

5.
提出了一种基于布尔矩阵的最大频繁项集挖掘算法,通过将FP-tree映射成布尔矩阵和权值表,运用布尔逻辑运算进行矩阵投影操作得到最大频繁项集,算法在挖掘过程中不用生成最大频繁候选项集,从而大大提高了算法的时间效率和空间可伸缩性。  相似文献   

6.
关联规则的研究是数据挖掘中的重要问题,如何高效地发现频繁项集是关联规则研究中的关键问题.根据数据库事务的统计性规律,在最大频繁项集发现算法Apriori及其变种算法的基础上,提出一种新的基于层次的最大频繁项集的发现算法.首先从整体上判断候选集的频繁性,然后在发现最大频繁项集的过程中,通过引入整体性策略、排序策略、最小策略有效地减少了候选集与数据库事务之间的比较次数.实验结果表明,采用该算法处理数据库事务数量大的最大频繁项集的发现任务,其效率相比Apriori算法有显著的提高.  相似文献   

7.
关联规则的研究是数据挖掘中的重要问题,如何高效地发现频繁项集是关联规则研究中的关键问题。根据数据库事务的统计性规律,在最大频繁项集发现算法Apriori及其变种算法的基础上,提出一种新的基于层次的最大频繁项集的发现算法。首先从整体上判断候选集的频繁性,然后在发现最大频繁项集的过程中,通过引入整体性策略、排序策略、最小策略有效地减少了候选集与数据库事务之间的比较次数。实验结果表明,采用该算法处理数据库事务数量大的最大频繁项集的发现任务.其效率相比Aoriori算法有显著的提高。  相似文献   

8.
周涛 《现代电子技术》2007,30(4):143-145
在对逆向FP-tree的研究基础上提出了逆向索引FP-tree挖掘频繁项集的算法。该算法构造了逆向索引FP-tree,通过寻找扩展频繁项集与合并第一棵子树的方法挖掘频繁项集,给出了逆向索引FP-tree的性质和挖掘算法。  相似文献   

9.
提出一种基于矩阵二进制编码的改进遗传算法MGA (Matrix Genetic Algorithm),应用于挖掘关联规则中的频繁项集。通过对初始种群的编码以及降维保证了合理的初始适应度,并对遗传算法中交叉算子和变异算子生成新个体与筛选的过程进行优化,使算法有优良的全局和局部搜索能力。实验结果显示,MGA算法的整体挖掘效率与质量良好。  相似文献   

10.
频繁项集快速挖掘及更新算法   总被引:2,自引:0,他引:2  
为了克服Apriori发现频繁项集存在的问题,提出了一种基于三维项集矩阵和向量(TIMV)的频繁项集挖掘算法.该算法摆脱了Apriori框架的束缚,仅需扫描数据库一次,不产生候选项目集.当事务数据库和最小支持度发生变化时,该算法只需重新遍历一次项集矩阵,即可得到新的频繁项集.实验结果表明,算法能有效提高频繁项目集的挖掘和更新效率.  相似文献   

11.
研究基于关联度挖掘的海量网络文本挖掘方法;随着计算机和网络技术的快速发展,网络上的文本呈现海量增长的趋势,传统的网络文本挖掘方法采用基于特征提取的方法实现,能够实现小数据量下的文本挖掘,但是在信息量的快速增长下,传统方法已经不能适应;提出一种基于关联度挖掘的海量网络文本挖掘方法,首先采用特征提取的方法对海量文本进行初步的分类和特征识别,然后采用关联度挖掘的方法对各个文本特征之间的关联度进行计算处理,根据关联度的大小最终实现文本挖掘,由于关联度可以很好的体现特征文本之间的相互关系;最后采用一组随机的网络热门词汇进行测试实验,结果显示,算法能够很好适应海量文本下的挖掘实现,具有很好的应用价值。  相似文献   

12.
Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后利用正则表达式滤除内容块中的HTML标记并提取网页正文。实验结果表明,该方法对正文抽取具有较高的通用性与准确率。  相似文献   

13.
传统的文本关键词提取方法忽略了上下文语义信息,不能解决一词多义问题,提取效果并不理想。基于LDA和BERT模型,文中提出LDA-BERT-LightG BM(LB-LightG BM)模型。该方法选择LDA主题模型获得每个评论的主题及其词分布,根据阈值筛选出候选关键词,将筛选出来的词和原评论文本拼接在一起输入到BERT模型中,进行词向量训练,得到包含文本主题词向量,从而将文本关键词提取问题通过LightG BM算法转化为二分类问题。通过实验对比了textrank算法、LDA算法、LightG BM算法及文中提出的LB-LightG BM模型对文本关键词提取的准确率P、召回率R以及F1。结果表明,当Top N取3~6时,F1的平均值比最优方法提升3.5%,该方法的抽取效果整体上优于实验中所选取的对比方法,能够更准确地发现文本关键词。  相似文献   

14.
提出了一种高效挖掘数据的频繁项目集模式的算法FIA.该算法采用一种二进制符号来表示数据,在仅扫描数据库一次之后,建立起二进制向量与上三角频繁项集矩阵,根据两者来产生出频繁项集.从而有效地缩小了搜索空间,加快了处理速度.通过实验表明,FIA算法比Apriori算法更有效.  相似文献   

15.
康涛 《现代电子技术》2007,30(10):88-90
提出一种基于PCA(主成分分析)和RS(粗糙集)的文本特征抽取方法。首先利用PCA将n维词语特征-文档矩阵变换为一个m维的正交矩阵,再采用RS的方法对m维新特征进行进一步的约简。实验结果表明,新的特征抽取方法用于垃圾邮件过滤能有效的提高垃圾邮件过滤的正确率和召回率。  相似文献   

16.
于雷  夏鹏 《电视技术》2012,36(Z2):24-25,59
介绍了通过高级语义技术以及自然语言处理技术对专利进行文本挖掘分析的方法,同时利用该方法对涉及视频编解码领域的专利进行分析,得到一些有用的建议。  相似文献   

17.
基于Web的文本挖掘研究   总被引:4,自引:6,他引:4  
基于Web的文本挖掘是数据挖掘的重要组成部分,文章重点对文本特征提取、文本分类、文本聚类等Web文本挖掘关键实现技术做了介绍,最后讨论了Web文本挖掘的价值及其对Web发展的重要性。  相似文献   

18.
在分析Apriori算法时间开销的基础上提出了一种优化的Apriori算法,它通过垂直数据布局并结合有效的链表结构减少了对数据库的扫描次数,通过按支持度大小升序排序减少了候选项集的数量,利用排序后项集的有序性减少了连接次数,有效减少了时间开销,从而提高了算法效率.实验结果验证了优化算法的可行性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号