首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
针对异常模式挖掘中的情境离群点检测问题,提出一种基于图的检测方法.首先对数据实例构建一个实例图,然后采用一个滑动窗口穿越数据实例,对处于滑动窗口内的数据实例,计算结点之间的闵可夫斯基距离作为边权值,然后采用最小生成树聚类算法对实例图进行聚类,再采用第二个滑动窗口穿越数据实例,根据窗口内的数据实例是否属于主趋势聚类赋予不同的离群值评分,不属于主趋势聚类的数据实例被认为是潜在的离群点.仿真实验和实际数据分析表明该方法在一元序列数据检测中是切实可行的,该方法具有较好的适用性和扩展性.  相似文献   

2.
针对传统的基于密度的局部离群点检测算法对原始数据集没有进行预处理导致该算法在面对未知数据集时检测效果不理想,又由于其需要计算每一个数据点的离群因子,在数据量过多时,计算量大大增加的问题,通过对局部离群点检测算法的分析,提出了一种基于目标函数的局部离群点检测方法FOLOF(FCM objective function-based LOF).首先,使用肘部法则确定数据集的最佳聚类个数;然后,通过FCM的目标函数对数据集进行剪枝,得到离群点候选集;最后,利用加权局部离群因子检测算法计算候选集中每个点的离群程度.利用该方法在人工数据集和UCI数据集上进行了相关实验,并与其他相关方法进行了对比,结果显示,该算法能够提高离群点检测精度,减少计算量,有效提高离群点检测性能.  相似文献   

3.
针对传统离群点检测方法精确度不高的问题,提出了一种同时基于全局和局部视野综合考虑的离群点检测方法,并将其成功应用于事务图数据集的离群点检测。该方法利用极大公共频繁子图来测量任意两个事务图之间的相似度,提出利用基于公共近邻的裁剪方法对相似矩阵进行裁剪,通过计算数据结点的往返距离得出各个结点的离群值评分,弥补了传统基于稳态分布随机游走的离群点检测方法的缺陷。实验结果表明:该方法在事务图数据离群点检测方面的性能明显优于基于subdue的方法,精确度和错误报警率以及召回率提高了约10%。  相似文献   

4.
离群点检测在是数据挖掘的重要领域,广泛应用在信用卡欺诈检测、网络入侵检测等重要方面,文中在结合层次聚类和相似性,给出高维数据的相似度量函数与类密度的概念,并基于类密度重新定义高维数据的离群点,从而提出一种基于相似度量的离群点检测算法;实验表明:算法对高维数据中的离群点检测有一定的价值。  相似文献   

5.
陈蓉  李艳萍 《科学技术与工程》2012,12(35):9725-9729
大多数数据挖掘算法都可以对数据进行相对准确的分类,然而他们都集中于单独地使用聚类的方法。所以对于离群点存在的数据集,常常不能得出准确的结果。而COID算法(Cluster-outlier Iterative detection)把簇和离群点巧妙地结合起来,通过它们之间的关系来检测离群点并进行合理聚类。为进一步提高该算法的实用性,现利用prim算法确定初始簇中心,从而降低了迭代次数,实验证明改进后的算法具有更好的可行性、有效性和准确性,适合于高维数据中对于聚类检测的要求。  相似文献   

6.
基于有权重支持度框架的关联规则挖掘算法和超图分割算法, 给出一种新的基于有权重超图模型的离群点检测算法WHOT(Weighted Hypergraph based Outlier Test). WHOT算法根据有权重支持度的定义, 重新设计了基于有权重支持度框架的关联规则挖掘算法, 并挖掘出数据集中的重要关联规则, 形成超图. 在超图上应用超图分割算法, 得到聚类集合, 再结合项权重和事务权重的定义, 判断一条记录是否为离群数据.  相似文献   

7.
通过对当前有代表性的离群数据检测方法的分析和比较,总结了各方法的特性及优缺点.针对大数据的数据量大、维数高的特性,分析了离群点检测方法的改进策略,并以T-ODCD算法和AROD算法为例,进一步说明离群点检测改进策略.  相似文献   

8.
为了提高高维数据集合离群数据挖掘效率,提出了一种基于流形学习的离群点检测算法。局部线 性嵌入( locally linear embedding, LLE)算法是流形学习中有效的非线性降维方法,它的优势在于只定义唯一的 参数,即邻域数。根据LLE算法的思想寻找样本数据的内在嵌入分布,并通过邻域数选取和降维后数据点之 间的距离调整,提高了数据集中离群点发现效率,同时利用离群点权值判别式进行权值数据判定,根据权值 的大小标识出数据集中的离群点,仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。 与此同时,该算法具有参数估计简单、参数影响不大等优点,该算法为离群点检测问题的机器学习提供了一 条新的途径。  相似文献   

9.
基于数据模式聚类算法的离群点检测   总被引:1,自引:0,他引:1  
针对传统模式挖掘算法在事务包含模式定义上未考虑模式间的包含关系而使聚类结果不够优良的问题, 提出一种新的基于模式聚类的离群点检测算法PCOT, 该算法适合于高维数据空间, 采用一种新的事务包含模式, 通过将模式表示成超图, 用超图分割方法对模式进行聚类. 实验与分析结果表明, 该算法能有效地在高维稀疏空间中发现离群点.  相似文献   

10.
时空离群点挖掘作为空间数据挖掘中的一个重要分支,为了找到与时空邻居对象有显著差别的时空对象,他们的数量很少,非常容易被当做数据噪声而被忽略,然而挖掘时空离群点能够发现意想不到的有意义的时空模式。在对现有的时空离群点挖掘进行研究时,我们发现挖掘对象通常是海量空间数据,因此研究合适的并行算法弥补串行算法的效率不足势在必行。  相似文献   

11.
一种改进的Apriori算法   总被引:3,自引:0,他引:3       下载免费PDF全文
介绍了关联规则挖掘的情况,并在分析关联规则的数据挖掘算法的基础上,提出一个改进的Apriori算法.新算法仅对数据库扫描一次,就能找出所有的频繁项集,从而提高了挖掘的效率,具有一定的实用性  相似文献   

12.
对经典的基于距离的孤立点挖掘算法进行了改进,引入关键属性,即减少了挖掘的数据量,从而提高了孤立点挖掘的效率,并且改进常用距离度量,用改进的加权曼式距离进行计算,降低了数据分布不均给检测结果带来的影响,同时改进后的挖掘算法在不影响挖掘结果的情况下取消了对参数设置的要求,给出了孤立点孤立的程度.  相似文献   

13.
针对Apriori算法需要多次扫描数据库以及可能产生庞大候选集的瓶颈问题,提出了一种改进的频繁项目集挖掘算法,该算法仅通过一次数据库的扫描生成一个链表,以比特位的方式存储项目在事物数据库中出现的位置,并在不产生候选集的基础上通过逻辑运算与集合运算的直接生成频繁项目集。经过实例分析,结果表明该算法相对于Apriori算法,能够在保证准确率的基础上拥有更低廉的代价。  相似文献   

14.
为了从数据集中快速有效地发现孤立点,提出了一种基于网格模型的孤立点检测方法,给出了数据空间的网格划分,定义了网格内孤立点存在性阈值,提出了基于网格的孤立点检测算法,在保证算法有效性的前提下,降低了算法的时间复杂度。  相似文献   

15.
基于图的空间例外检测算法研究   总被引:3,自引:2,他引:3  
 空间例外检测可以发现许多意想不到的潜在知识.已有的空间例外检测算法都是在多维几何数据集合中进行的文章在图结构数据集合中发现空间例外.首先,结合空间数据的特点并基于DB(ρ,d)例外的定义提供了基于相异度的空间例外SDB(ρ,d)例外的形式化定义,然后给出了相应的空间例外挖掘算法.  相似文献   

16.
取样是一种通用有效的近似技术,利用取样技术进行近似聚集查询处理是决策支持系统和数据挖掘实现技术中的常用方法.如何正确有效地给出近似查询结果并最小化近似查询误差是近似查询处理的关键和目标.在深入研究近似聚集查询取样方法的基础上,本文提出了一个有误差确界且只需单遍扫描数据集的离群分治取样Outlier-DivideConq...  相似文献   

17.
针对传统的关联分析算法Apriori执行效率低、I/O过重、计算量过大等问题,提出了一种通过减少扫描数据库次数来降低候选项集计算复杂度, 在频繁项集求解过程中通过将事务项集转换为行向量,利用“与”操作来提高算法执行效率的Apriori改进算法。利用学生在校行为数据集对Apriori改进算法进行有效性和高效性验证。同时,为了符合算法对样本数据的要求,在样本数据处理过程中对原始数据进行了清洗和离散化处理,定义了分析对象的样本数据离散化处理的规则。通过实验分析比较了Apriori改进算法与经典Apriori算法的性能。结果表明,Apriori改进算法保持了对实际分析对象关联规则挖掘的有效性,同时具有更高的执行效率。  相似文献   

18.
Apriori算法是关联规则挖掘的经典算法,具有原理简洁、易编程实现等优点,得到广泛应用。针对该算法扫描数据库次数过多,产生大量冗余候选集的缺陷,在现有Apriori算法改进优化思想的基础上,结合矩阵、改进频繁模式树和计算候选集频数优化策略提出了一种改进的关联规则挖掘算法——MIFP-Apriori算法。实验表明,该算法能够将扫描数据库次数降低到一次,有效解决产生大量冗余候选集的缺陷,提高算法效率。  相似文献   

19.
在冶金、化工等流程型工业领域,生产中的过程控制参数往往具有高维非线性结构特征.为了解决这类高维复杂数据的异常点检测问题,本文引入了软超球体的概念,采用非线性核函数将原始数据映射到高维的特征空间,并在特征空间中确定软超球体的边界.通过检测待识别样本映射到特征空间的位置信息来判定过程参数的设定值是否为异常点,从而避免出现批量的产品质量问题.以某类汽车用钢为应用实例,对实际生产数据进行检测,证明了所提出的基于软超球体的异常点识别算法对于高维的非线性数据具有良好的检测能力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号