共查询到18条相似文献,搜索用时 46 毫秒
1.
2.
提出了一种高效挖掘数据的频繁项目集模式的算法FIA.该算法采用一种二进制符号来表示数据,在仅扫描数据库一次之后,建立起二进制向量与上三角频繁项集矩阵,根据两者来产生出频繁项集.从而有效地缩小了搜索空间,加快了处理速度.通过实验表明,FIA算法比Apriori算法更有效. 相似文献
3.
一种频繁项目集的快速挖掘算法 总被引:2,自引:2,他引:0
杨君锐 《微电子学与计算机》2004,21(2):70-72,77
关联规则是当前数据挖掘研究的主要领域之一,发现频繁项目集是关联规则数据挖掘中的关键问题。文章提出了一种快速挖掘频繁项目集的新方法FMFI(Fast Mining Frequent Itemsets)。针对关联规则下频繁项目集的特性,该算法摆脱了传统的自底向上的搜索策略,而采取了自底向上和自顶向下相结合的双向搜索方式,从而降低了扫描数据库的次数,提高了挖掘效率。 相似文献
4.
最大频繁序列挖掘是数据挖掘的重要内容之一.在深入分析频繁序列特点以及已有序列挖掘算法的基础上,提出一种新的最大序列挖掘算法Huffman-MaxSeq.与传统的"候选最大频繁序列集生成——测试"思路不同,该算法采用"边生成候选序列边测试"的思想,从而有效地减少了候选序列的生成.该算法基于构造哈夫曼树(最优树)的方法,对每个序列赋予权值,按权值的大小选取序列,连接生成新的候选频繁序列,再产生最大频繁序列. 相似文献
6.
利用了有向项集图来存储事务数据库中有关频繁项集的信息,提出了有向项集图的三叉链表式存储结构和基于有向项集图的频繁闭项集挖掘算法。不仅实现了事务数据库的一次扫描,减少了I/O代价,而且提高了数据结构的存储空间效率和频繁闭项集挖掘算法的执行时间效率。 相似文献
7.
《电子技术与软件工程》2017,(10)
Fp-Tree算法在挖掘最大频繁模式和搜索关联规则中得到了广泛应用。本文阐述了Fp-Tree算法的一般过程,并对其效率瓶颈作了分析:传统的Fp-Tree算法在构建频繁树的过程中需要递归地插入频繁项,在频繁模式的挖掘过程中需要递归地产生条件FpTree,这些递归过程会增大算法开销,降低算法效率。本文使用非递归机制对Fp-Tree的构建过程做了一些改进,同时,在挖掘频繁项过程中使用了组合频繁前缀的方法,避免了条件Fp-Tree的产生。本文就改进算法与传统算法作了对比实验,可以看出,这些改进一定程度上提高了效率。 相似文献
8.
9.
发现最大频繁(项目)集是关联规则挖掘中的重要问题。提出一个基于频繁模式树FP—Tree(Frequent Pattern Tree)的快速发现最大频繁项目集算法MFP—growth(Maximum Frequent Pattern growth),其发现过程中不需要产生候选(项目)集,从而提高了挖掘效率。由实验结果表明,此算法在发现最大频繁项目集方面具有很好的性能。 相似文献
10.
由于大部分图挖掘算法都需要利用频繁子图,频繁子图挖掘逐渐成为了数据挖掘领域中的热点研究内容.目前,很多高效的频繁子图挖掘算法已经被提出.其中,gSpan算法是目前公认的最好的频繁子图挖掘算法.然而,在化合物数据集上,还可以利用化合物的特殊结构进一步优化gSpan算法的性能.文献利用了化合物分子结构的对称性和原子类型分布... 相似文献
11.
挖掘最大频繁项目集是数据挖掘中的重要研究课题。目前已经提出的最大频繁项目集挖掘算法大多是基于单机环境的,在分布环境中挖掘最大频繁项目集的算法尚不多见。文章提出了一种基于分布数据库的并行挖掘最大频繁项目集的算法。该算法尽可能地让每个处理器独立地挖掘,采用频繁模式树(FP—tree)作为数据结构,可方便地从各局部FP-tree中挖掘局部最大频繁项目集及判断各项目集的支持度。采用传递候选最大频繁项目集的方法。实验表明该算法是有效的并行算法。 相似文献
12.
13.
一种时间序列频繁模式挖掘算法及其在WSAN行为预测中的应用 总被引:1,自引:0,他引:1
该文提出FPM(Frequent Pattern Mining)算法充分考虑频繁模式在时间序列中出现次数和分布。基于这些不同分布的频繁模式扩展MAMC(Mixed memory Aggregation Markov Chain)模型提出FMAMC(Frequent pattern based Mixed memory Aggregation Markov Chain)模型。将FPM和FMAMC应用到实际的智能楼宇项目中,证明和现有算法相比FPM算法具有较好的时间性能,FMAMC模型能够比MAMC模型更准确的预测WSAN节点行为。 相似文献
14.
频繁模式树算法是一种优秀的关联规则挖掘算法.频繁模式树算法的挖掘对象是水平数据分布的数据库,现实中有大量数据垂直分布的数据库不能直接应用频繁模式树算法进行挖掘.本文针对垂直数据分布的数据库,提出一种有效的频繁模式树生长算法,只需两次数据库扫描,即可生成相应的频繁模式树. 相似文献
15.
如何提取和选择时间序列的特征是时间序列分类领域两个重要的问题。该文提出MNOE(Mining Non- Overlap Episode)算法计算时间序列中的非重叠频繁模式,并将其作为时间序列特征。基于这些非重叠频繁模式,该文提出EGMAMC(Episode Generated Mixed memory Aggregation Markov Chain)模型描述时间序列。根据似然比检验原理,从理论上推导出频繁模式在时间序列中出现的次数和EGMAMC模型是否能显著描述时间序列之间的关系;根据信息增益定义,选择能显著描述时间序列的频繁模式作为时间序列特征输入分类模型。在UCI (University of California Irvine)公共数据集和实际智能楼宇数据集上的实验表明,选择频繁模式作为特征进行分类的准确率、召回率和F-Measure均优于不选择频繁模式作为特征的分类结果。高效的计算和有效的选择非重叠频繁模式作为时间序列特征有助于提高时间序列分类模型的各项评价指标。 相似文献
16.
挖掘事务库中的频繁项集是数据挖掘的重要任务之一。文章对求关联规则中频繁项集算法进行了分析,着重叙述了DHP算法的设计思想,并用Prolog语言实现,试图探讨用逻辑推理方法解决数据挖掘问题。 相似文献
17.
为了动态、准确、高效地描述用户的访问行为,实现对不同应用层分布式拒绝服务(Application-layer Distributed Denial of Service, App-DDoS)攻击行为的透明检测,该文提出基于最大频繁序列模式挖掘的ADA_MFSP(App-DDoS Detection Algorithm based on Maximal Frequent Sequential Pattern mining)检测模型。该模型在对正常Web访问序列数据库(Web Access Sequence Database, WASD)及待检测WASD进行最大频繁序列模式挖掘的基础上,引入序列比对平均异常度,联合浏览时间平均异常度、请求循环平均异常度等有效检测属性,最终实现攻击行为的异常检测。实验证明:ADA_MFSP模型不仅能有效检测各类App-DDoS攻击,且有良好的检测灵敏度。 相似文献