首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
本文介绍了对分析测试中离群数据进行统计学检验的方法,编制了相应的计算机程序,列举了应用实例。  相似文献   

2.
通过充分调研,对现有离群数据检测算法作了分析比较,总结出各算法的特点,并且探讨和展望了离群数据检测的几个热点问题,为离群数据检测算法的进一步研究打下基础。  相似文献   

3.
一种基于离群数据挖掘的数据抽查新方法   总被引:1,自引:0,他引:1  
针对传统数据抽查方法很难保证数据抽查有效性的缺点 ,结合离群数据挖掘 ,给出了一种基于离群数据挖掘的数据抽查新方法 .通过实验表明 ,该方法既能克服了随机数据抽查难以保证抽查有效性的缺陷又能克服重点数据抽查对抽查者经验的依赖 ,从而保证了数据抽查的有效性和全面性  相似文献   

4.
5.
基于单元的快速的大数据集离群数据挖掘算法   总被引:1,自引:0,他引:1  
提出基于单元的快速的大数据集离群数据挖掘算法,用聚簇技术对数据进行预处理,然后将数据放入合适的空间单元并对非空单元使用维单元树(cell dimension tree,CD-tree)进行索引,数据集中大部分位于高密度区且与离群数据无关的数据将会被过滤掉,从而避免了大量不必要的计算。实验表明,该算法能快速准确地从大数据集中挖掘出离群数据,并提高离群数据的检测速度。  相似文献   

6.
针对高维数据集中的离群点挖掘任务,给出了一种基于基尼指标和属性相关性分析的高维数据离群点挖掘算法.该算法首先采用属性相关性分析方法,删除高维数据集中的冗余属性,缩减了数据集的大小;其次采用基尼指标作为离群度量因子,从缩减后的数据集中,挖掘出不同离群程度的数据点;最后,实验采用天体光谱数据作为实验数据集,经实验验证,该算法对高维数据集中离群点的挖掘算法是有效的和可行的,其效率得到了明显的提高.  相似文献   

7.
为了提高高维数据集合离群数据挖掘效率,在分析了传统的离群数据挖掘算法优点和缺点的基础上,提出了一种离群点检测算法,首先将非线性问题转化为高维特征空间中的线性问题,然后利用非线性数据变换进行维数约减,对所得数据对象每个投影分量逐个判断数据点是否是离群点,通过实验证明该算法不仅可用于线性可分数据集的离群点检测,而且可用于线性不可分数据集的离群点检测,表明了算法的优越性。  相似文献   

8.
在数据密集型计算环境中,数据具有海量、高速变化、分布存储和异构等特征,对数据挖掘算法的设计与实现提出了新的挑战.基于MapReduce模型,提出了一种网格技术与基于LOF方法相结合的离群点挖掘算法MR_LOF.Map阶段采用网格进行数据约简,将代表点信息发送给主节点;Reduce阶段使用基于密度的离群点挖掘算法,借助网格期望值E筛选出稠密区域.该算法只需计算稀疏区域对象的LOF值,降低了算法的时间复杂度.实验结果表明,在数据密集型计算环境中,该方法能有效的对离群点进行挖掘.  相似文献   

9.
文中在简要介绍和分析一般的测量数据检验处理的基础上,通过实例对几种数据检验方法作一比较;并介绍一种具有抗差能力的样本分位数统计检验方法。  相似文献   

10.
基于不确定数据的表示模型, 针对属性级不确定数据, 提出一种不确定数据生成算法AC UDGen(attribute level continuous uncertain data set generation algorithm). 该算法通过引入离群点检测 LOF(local outlier factor)算法, 用每个数据对象的离群因子作为参数来控制不确定数据对象的扰动范围, 可很好地满足原始数据的分布特征, 解决了目前工作中缺乏原始数据分布特征的问题. 实验结果表明, 该算法生成的不确定数据集具有更好的聚类效果, 并降低了离群点对聚类结果的影响, 使每个数据对象MBR(minimum bounding rectangle)的大小可根据自身的分布特征自适应地变化.  相似文献   

11.
12.
为了提高高维数据集合离群数据挖掘效率,提出了一种基于流形学习的离群点检测算法。局部线 性嵌入( locally linear embedding, LLE)算法是流形学习中有效的非线性降维方法,它的优势在于只定义唯一的 参数,即邻域数。根据LLE算法的思想寻找样本数据的内在嵌入分布,并通过邻域数选取和降维后数据点之 间的距离调整,提高了数据集中离群点发现效率,同时利用离群点权值判别式进行权值数据判定,根据权值 的大小标识出数据集中的离群点,仿真实验的结果表明了该方法能够有效地发现高维数据集中的离群点。 与此同时,该算法具有参数估计简单、参数影响不大等优点,该算法为离群点检测问题的机器学习提供了一 条新的途径。  相似文献   

13.
物联网的快速发展产生了海量的高维时序数据,然而时间序列易受到外界变化的环境因素影响而产生离群点。针对现有的离群点挖掘算法不能兼顾时序数据的趋势性、季节性、循环性、不规则性的特点,从而导致检测效果不理想的问题,提出一种基于残差融合的时序数据离群挖掘(residual integration outlier,RIO)算法。首先利用线性自回归移动平均模型(autoregressive integrated moving average model,ARIMA)拟合数据,得到在相同时间粒度下的残差序列,并将该序列作为非线性模型长短期记忆网络(long short-term memory,LSTM)模型的输入,输出残差序列预测值,而后将经由ARIMA模型与LSTM模型处理的序列在相同时间粒度下融合,得到一条经由混合模型两次处理的残差序列。最后,利用基于直方图的离群点模型(histogram-based outlier score,HBOS)检测出该二次残差序列的离群点。实验表明,RIO算法的准确度得到了较为明显的提高,具备良好的实用价值。  相似文献   

14.
针对高维海量数据集中的局部离群数据,利用并行计算和属性相关性分析思想,给出了一种离群数据并行挖掘算法。该算法首先由主节点分配属性相关分析任务,各个子节点并行查找数据集中的冗余属性,将其冗余属性传回主节点,并由主节点删除;其次,主节点分配搜索任务,各子节点采用微粒群算法,并行搜索局部离群子空间;再次,由主节点对局部离群子空间合并计算后,确定全局离群数据;最后,在MPICH2-1.0.3的并行计算环境下,采用恒星光谱数据作为数据集,实验结果验证了算法的正确性和有效性。  相似文献   

15.
通过对当前有代表性的离群数据检测方法的分析和比较,总结了各方法的特性及优缺点.针对大数据的数据量大、维数高的特性,分析了离群点检测方法的改进策略,并以T-ODCD算法和AROD算法为例,进一步说明离群点检测改进策略.  相似文献   

16.
基于nested-loop的大数据集快速离群点检测算法   总被引:1,自引:0,他引:1  
针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.该算法通过在预处理中存储每个点的模信息,减少点间距离的计算量,并对嵌套循环方法进行优化,进一步减少I/O的开销.理论分析和试验结果表明,所提算法具有时间消耗小和适用于处理大数据集的特点,可以有效地解决离群点检测中的算法时间复杂性和算法扩展性问题.  相似文献   

17.
张哲 《科技咨询导报》2010,(6):216-216,218
对两种常用的空间离群点检测算法进行简单的介绍,并通过实验对算法进行比较,分析了这两种空间离群点检测算法的优缺点,以及导致它们差异的具体原因。这对寻找更好的空间离群点检测算法具有实用意义。  相似文献   

18.
为了提高交通建模的准确性和可靠性,或者提取重要的有价值的隐藏信息,将离群数据挖掘技术引入交通数据处理.首先分析了3种典型的离群数据挖掘算法:基于统计的方法、基于距离的方法以及基于密度的方法的原理、特点和时间复杂性;其次给出了2个实例分析,一是在建立交通流量预测模型前,将基于统计的方法和基于距离的离群检测方法分别用于交通量时间序列,寻找离群数据;二是将基于距离的方法和基于密度的方法用于路面平整度检测.实例研究表明,离群数据挖掘算法可有效识别异常交通数据,在交通工程领域具有较大的应用潜力.  相似文献   

19.
K-means算法以其简单、快速的特点在现实生活中得到广泛应用.然而传统Kmeans算法容易受到噪声的影响,导致聚类结果不稳定,聚类精度不高.针对这个问题,提出一种基于离群点检测的K-means算法,首先检测出数据集中的离群点,在选择初始种子的时候,避免选择离群点作为初始种子.然后在对非离群点进行聚类完成后,根据离群点到各个聚类的距离,将离群点划分到相应的聚类中.算法有效降低离群点对K-means算法的影响,提高聚类结果的准确率.实验表明,在聚类类别数给定的前提下,在标准数据集UCI上该算法有效降低离群点对K-means算法的影响,提高了聚类的精确率和稳定性.  相似文献   

20.
针对目前高维数据量急剧增加,离群点检测技术精准度低、所需内存大、检测时间长等问题,提出了基于网格划分和局部线性嵌入方法(Locally Linear Embedding, LLE)的高维数据离群点自适应检测方法.根据高维数据的空间维度进行网格划分,设定单元格邻近单元数量,降低运行开销,减少计算时间.采用局部线性嵌入方法(LLE),分析不同组合数据点的局部特性,准确描述高维数据结构,完成高维数据集预处理.采集高维数据集合中小部分重要信息,保证采集结果的准确性,利用MapReduce编程模型,将大任务划分为多个不同的小任务,展开分布式处理.通过网格密度计算离群度,提升检测效率,优先过滤空白网格单元,降低空间开销,减小所需内存,从而实现高维数据离群点自适应检测.实验结果表明:所提方法在不同数据集大小测试中,执行时间更短,检测精确度更加稳定;在维度测试中,所需内存更少.证明所提方法能够有效降低执行时间和内存,提升检测结果的精确度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号