首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基于角度分布的高维数据流异常点检测算法   总被引:1,自引:0,他引:1  
为了有效检测高维数据流中的异常点,提出一种基于角度分布的高维数据流异常点检测(DSOD)算法.运用基于角度分布的方法准确识别高维数据集中的正常点、边界点以及异常点;构造了基于正常集、边界集的小规模数据流型计算集,以降低算法在空间以及时间上的开销;建立了正常集、边界集的更新机制,以解决大数据流的概念转移问题.在真实数据集上的实验结果表明,所提出的DSOD算法的效率高于Simple VOA算法与ABOD算法,并且适用于大数据流上的异常点检测.  相似文献   

2.
针对高维数据聚类分析中数据之间具有多种非线性特征关系,导致数据分布不均、传统相似性度量失效及结果类中心难以精准表征等问题,提出了一种基于核主元分析(KPCA)与密度聚类(DBSCAN)的高维非线性特征数据聚类分析技术。首先,为有效提取高维数据的非线性特征,利用KPCA理论将原始数据映射到更高维数据空间,利用主元分析获得数据变化的方向集合,并进行降维分析;然后,通过重新定义数据样本在主元空间的相似性距离对传统DBSCAN聚类方法进行改进,并利用3δ统计理论对各簇中心的进行表征,从而实现高维数据的精确分类与类中心知识表达。以实际高血压患者群体聚类问题为例对方法进行了有效性验证,实验表明,所提方法可以有效获取原始数据的非线性特征,实现患者个体特征群体的有效划分及簇类中心知识的表达,解决传统DBSCAN聚类方法对高维数据不适用的问题。  相似文献   

3.
讨论了基于贝叶斯方法进行模型选择与异常点识别时两者之间的相互影响,建议模型与异常点应结合起来同时识别.针对二值数据,采用引入隐变量的数据扩增方法进行异常点识别,并且给出了基于MCMC方法计算后验概率来进行模型和异常点同时识别的具体过程.  相似文献   

4.
为了提高异常检测算法在高维数据上的性能,提出了一种基于稀疏表征的孤立点检测(ODSR)方法.将实例表征为其他实例的稀疏线性组合,得到所有实例的近邻关系矩阵,并使用基于图谱理论的谱聚类方法识别异常点.该方法具有自动选择近邻的优势,能有效地得到近邻关系,并解决传统近邻算法中的k值选择困难问题.将ODSR与6种流行的异常检测算法在11个真实数据集上进行了综合实验比较,结果表明ODSR的复杂度及曲线下面积(AUC)值及稳定性更高.  相似文献   

5.
针对目前高维数据量急剧增加,离群点检测技术精准度低、所需内存大、检测时间长等问题,提出了基于网格划分和局部线性嵌入方法(Locally Linear Embedding, LLE)的高维数据离群点自适应检测方法.根据高维数据的空间维度进行网格划分,设定单元格邻近单元数量,降低运行开销,减少计算时间.采用局部线性嵌入方法(LLE),分析不同组合数据点的局部特性,准确描述高维数据结构,完成高维数据集预处理.采集高维数据集合中小部分重要信息,保证采集结果的准确性,利用MapReduce编程模型,将大任务划分为多个不同的小任务,展开分布式处理.通过网格密度计算离群度,提升检测效率,优先过滤空白网格单元,降低空间开销,减小所需内存,从而实现高维数据离群点自适应检测.实验结果表明:所提方法在不同数据集大小测试中,执行时间更短,检测精确度更加稳定;在维度测试中,所需内存更少.证明所提方法能够有效降低执行时间和内存,提升检测结果的精确度.  相似文献   

6.
针对高维数据集中的离群点挖掘任务,给出了一种基于基尼指标和属性相关性分析的高维数据离群点挖掘算法.该算法首先采用属性相关性分析方法,删除高维数据集中的冗余属性,缩减了数据集的大小;其次采用基尼指标作为离群度量因子,从缩减后的数据集中,挖掘出不同离群程度的数据点;最后,实验采用天体光谱数据作为实验数据集,经实验验证,该算法对高维数据集中离群点的挖掘算法是有效的和可行的,其效率得到了明显的提高.  相似文献   

7.
介绍了纵向数据非线性混合效应模型,将有界函数Huber函数引入该模型的对数似然函数,得到模型参数的稳健估计(M估计),并探讨了基于M估计异常点检验的问题,通过血浆药物渗透数据说明了方法是有效的.  相似文献   

8.
基于污水处理厂减少监测污水装置的要求,提出了一种以相对误差最小为性能指标的污水浓度预测方法,该方法首先将低维空间的数据映射到高维空间,然后在高维空间上建立线性预测模型.最后给出了应用实例,并与传统的最小二乘法和当前热门的神经网络方法的结果进行了比较,结果表明本文方法结构简单而且有效.  相似文献   

9.
异常流量的准确识别在网络安全中起着重要作用,支持向量机(Support Vector Machine,SVM)已经成功地应用于分类和函数逼近等方面,而核函数参数和惩罚参数(C)的选取对SVM的分类性能起着关键作用.为了提高SVM的分类性能,提出一种基于改进蚱蜢算法优化SVM的异常流量识别方法,命名为SAGOA-SVM.在对蚱蜢算法进行实验研究后发现其局部搜索能力较弱,本文通过引入模拟退火算法和位置偏移机制增强蚱蜢趋向食物源的随机性来改进蚱蜢算法优化SVM参数的性能,从而提高SAGOA-SVM算法对异常流量的识别率.在选取的7个标准UCI数据集上的实验结果表明,所提出的SAGOA-SVM算法有很好的分类精度和性能.  相似文献   

10.
高维数据的2D图单点表示原理   总被引:2,自引:2,他引:0  
高维数据的单点2D图表示是2D图表示的重要分支.由于其可在单幅多元图中显示多个观察,因此适用于模式识别领域中的特征选择与分类空间形成.本文根据多元图中单点映射的变量数目的不同对单点图表示进行了对比,并分析了其各自的适用范围与优缺点.  相似文献   

11.
基于nested-loop的大数据集快速离群点检测算法   总被引:1,自引:0,他引:1  
针对已有的多数离群点检测算法存在扩展性差,不能有效应用于大数据集的问题,在已有的基于距离的离群点检测算法的基础上,设计模信息表存储结构,利用向量内积不等式关系以及合理的存储分配和调度策略,提出一种高效离群点检测算法DBoda.该算法通过在预处理中存储每个点的模信息,减少点间距离的计算量,并对嵌套循环方法进行优化,进一步减少I/O的开销.理论分析和试验结果表明,所提算法具有时间消耗小和适用于处理大数据集的特点,可以有效地解决离群点检测中的算法时间复杂性和算法扩展性问题.  相似文献   

12.
针对孤立点检测算法不能较好地模拟人工检测过程、未充分考虑待测数据周围样本分布的问题,提出了一种孤立点检测算法DD-SVDD.该算法综合考虑待测样本与目标样本之间的距离,以及待测样本所在区域样本的分布信息,结合距离和平均密度来确定高维特征空间中决策边界附近待测数据的类别.在训练阶段,考虑了决策边界附近目标训练样本的分布,...  相似文献   

13.
对经典的基于距离的孤立点挖掘算法进行了改进,引入关键属性,即减少了挖掘的数据量,从而提高了孤立点挖掘的效率,并且改进常用距离度量,用改进的加权曼式距离进行计算,降低了数据分布不均给检测结果带来的影响,同时改进后的挖掘算法在不影响挖掘结果的情况下取消了对参数设置的要求,给出了孤立点孤立的程度.  相似文献   

14.
Outlier detection has very important applied value in data mining literature. Different outlier detection algorithms based on distinct theories have different definitions and mining processes. The three-dimensional space graph for constructing applied algorithms and an improved GridOf algorithm were proposed in terms of analyzing the existing outlier detection algorithms from criterion and theory.  相似文献   

15.
通过研究基于距离的孤立点发现算法(Cell-Based),指出其存在的问题,提出了一种基于核映射空间距离的入侵检测算法.该算法通过检测孤立点的方法进行入侵检测,首先将样本通过核函数映射到高维特征空间,重新定义特征空间中的数据点之间的距离.然后经过初始聚类算法确定聚类数目和初始类中心,再通过迭代优化目标函数来实现数据点的再聚类,最终得到聚类中心,超出聚类中心点半径r外的点即为孤立点.试验结果表明,该算法能有效突出样本之间的差异,克服传统基于距离的孤立点发现算法易随参数变化而需调整单元结构的缺点,且具有更准确的检测率和较快的收敛速度.  相似文献   

16.
空间例外是指与其邻域内其它数据表现不一致或者是偏离观测值以至使人们认为是由不同体制产生的观测点.传统的例外挖掘是根据一个非空间属性值进行例外判断,这种方法容易引起判断失误.在对多个属性进行考虑的基础上,提出了一种基于多属性的空间例外挖掘算法,并与属性加权算法在正确性和有效性方面进行了比较分析.实验证明算法可以有效地发现例外数据.  相似文献   

17.
一种改进的离群点检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
现有的离群点检测算法运用于规模较大的数据集时,其时间效率和检测效果通常不够理想.通过对离群点分布特征的分析,在计算每个数据点到其kth最近邻对象距离的同时,结合其k最近邻的分布情况,给出一种改进的离群点度量方法.基于上述思想构造的离群点检测算法DokOF能够处理混合属性数据.实验表明,该算法具有良好的适用性和有效性.  相似文献   

18.
将小波变换和柔性形态学结合起来应用到图像的边缘检测中,经过仿真实验可以看出,本文方法较传统的sobel算子等检测算法有明显优势,提高了图像边缘检测的准确性。  相似文献   

19.
廖列法  姚秀  李奎 《科学技术与工程》2023,23(17):7420-7427
现有的专利新颖性测量方法需要依赖特定的领域知识以及专家的介入,性能差且耗时,为此,提出了一种不依赖特定领域知识及专家的全自动化系统的识别新颖性专利的方法。首先利用RoBERTa表示专利向量,以解决需要依赖技术领域的知识来表示专利的多义词问题,其次利用数据点的密度分布并结合信息熵改进局部离群因子算法(LOF)来确定离群点个数及数据点集,提高离群点的检测精度,结合RoBERT与改进的LOF在数值尺度上度量专利的新颖性。实验验证表明,所提方法测量的专利新颖性的得分与现有文献中的相关专利指标显著相关,并且识别出的新颖性专利具有更高的技术影响。  相似文献   

20.
总结目前数据流在线检测算法的优缺点,提出了一种新的数据流在线检测算法—SWKLOF。该算法采用滑动时间窗口对数据流进行封装,用k-距离进行剪枝,剔除大部分正常数据,对剩余疑似异常数据采用局部离群因子LOF(local outlier factor)进一步精确筛选。理论分析和实验结果表明该算法降低了时间复杂度,提高了检测准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号