首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
一种基于可变滑动窗口的数据流分段聚类算法   总被引:2,自引:2,他引:0  
数据流的应用越来越广泛,数据流挖掘成为数据挖掘的重点研究方向之一。在分析各种数据流聚类算法的基础上,提出了一种基于可变滑动窗口的数据流分段聚类算法。算法以时间序列数据流模式表示技术为参考,以去除噪音和压缩数据为目的,实现了数据流的特征提取和概要存储。实验表明,算法具有低时空复杂度、自适应等特点。  相似文献   

2.
针对传统K-均值方法不能有效处理动态变化的数据聚类的问题,本文提出了一种改进的数据流聚类技术——流式K-均值聚类(Streaming K-means Clustering,SKC).该方法首先对数据流中已经产生的初始数据块进行K-均值聚类,当数据流的新数据块到来时,通过衡量已经得到的聚类结果与新进入样本块的距离,对样本进行初步简单归类,并计算聚类结果的性能,若聚类结果性能在可接受范围内,则该数据块聚类结束,否则采用K-均值方法对新类进行深层次聚类.采用SKC的流式数据聚类方法处理数据流的聚类问题,对于整个数据流中的多数数据块都进行简单归类,只有少数数据块进行K-均值聚类,有效提高了数据流聚类的效率.实验结果表明,流式K-均值聚类方法能够有效处理数据流的聚类问题.  相似文献   

3.
数据流潜在无限、流动迅速、变化频繁等特点,使在数据流上实现隐私保护面临重大挑战.在阐述数据流匿名的概念及分析现有数据流匿名算法特点的基础上,提出基于聚类的数据流匿名设计思想,并给出算法实现.在真实数据集上的实验结果表明,新算法在满足匿名要求的同时能够降低概化和抑制处理带来的信息损失.  相似文献   

4.
为了提高数据流的聚类质量与效率,提出了一种基于密度的数据流聚类算法,该算法采用双层聚类框架,对于历史数据的遗忘问题采用了消逝策略和粒度调整策略,消逝策略能够处理噪声,节约内存;粒度调整策略检测当前的内存消耗,提高了聚类质量。基于标准数据集和仿真数据集的实验表明,此算法是可行有效的,适合处理和分析大规模的快速数据流。  相似文献   

5.
在海量的动态数据流中发现有价值的知识,是数据挖掘技术研究的重要问题.研究数据流聚类,根据数据流的特点,提出了一种基于滑动窗口的一趟数据流挖掘的算法,对原有的一趟数据流聚类算法进行了改进,增强了一趟数据流聚类算法的扩展性,改进了数据流聚类的质量.  相似文献   

6.
许颖梅 《河南科学》2014,(5):777-780
数据流聚类算法是当前数据流研究领域里的重要分支,而滑动窗口是数据流中一种关注近期数据的近似方法,提出一种采用滑动窗口处理数据的优化算法SWStream.算法采用双层架构思想,在线阶段利用滑动窗口树存储概要结构,动态调整窗口大小.而在离线阶段对上一阶段的结果进行宏聚类,得到最后的结果.实验验证本算法有更高的处理效率,也相对节约内存.  相似文献   

7.
空间数据库中存储了海量的实时数据,常规的算法在数据挖掘过程中无法根据空间数据流的特征进行聚类.针对该问题,我们提出一种基于网格和距离阈值的空间数据流聚类算法,该算法分为离线和在线部分,为实时数据赋予时间相关的距离值,利用网格进行聚类.实验证明此算法对于空间数据流聚类具有理想的结果.  相似文献   

8.
滑动窗口是数据流中一种关注近期数据的近似方法,提出一种采用滑动窗口处理数据的优化算法SWStream。在线阶段利用滑动窗口树存储概要结构,动态调整窗口大小。优化后的算法能及时淘汰过期元组,同时对新到达的元组不断进行实时处理,可以获得更准确的分析结果。而在离线阶段对上一阶段的结果进行宏聚类,得到最后的结果。与聚类算法CluStream相比,此算法处理数据的效率更高,也相对节约内存。  相似文献   

9.
一种网格和分形维数的数据流聚类算法   总被引:1,自引:0,他引:1  
针对常规算法不能适应数据流的动态环境问题,提出一种基于网格和分形维数的数据流聚类算法,有效地完成了对数据流的分析任务,克服了传统聚类方法的不足,把整个挖掘过程分为在线进程和离线进程,最终实现数据流的聚类.  相似文献   

10.
近几年,数据流聚类算法逐渐发展成分层的算法框架。通常情况下,分层聚类算法将算法结构分为两个部分:“在线层”和“离线层”,本文提出了一种新算法(DenCluStream),可用于挖掘数据流中具有任意形状的簇。  相似文献   

11.
提出了一种数据流概率密度估计方法,在此基础上,经计算得到整个数据集在低维空间投影的信息熵,基于该信息熵实现了一种新的高维数据流的子空间聚类算法EPStream.实验表明,与传统的算法相比,该算法在聚类精度和时间方面都有所提高.  相似文献   

12.
在数据流分类学习过程中,类不平衡和概念漂移是两大挑战问题.在分析传统特征选择算法和代价敏感学习方法的基础上,将代价敏感学习算法的思想引入特征选择算法中,设计并实现了一种基于代价敏感的Relief F剪枝的数据流分类算法,不仅能删除冗余的特征,而且适应动态变化的数据流环境.与经典的算法进行分析比较,结果表明所提算法可显著提升分类效果.  相似文献   

13.
利用TSP问题特点,提出了动态分组算法求TSP问题.将TSP环路动态随机分解成双环,再用最佳组合方式组合成单环,实现了在总体路径寻优下的局部路径优化,从而使所得路径尽可能接近最优解.通过对TSPLIB中实例的大量实验及与KD、KL、SETSP、Budinich和ESOM等类SOM算法的比较,表明该算法具有良好的性能.  相似文献   

14.
提出了基于随机标记子集的多标记数据流分类算法,其基本思想是在多标记分类过程中,将原始较大的标记集随机地划分为多个较小的标记子集,并针对每个标记子集训练一个概率分类器链.在充分利用标记间依赖关系的同时,又有效地降低了概率分类器链的时间复杂度.同时,在算法中嵌入了自适应滑动窗口算法来检测概念漂移.实验结果表明,同其他算法相比,在大多数数据集合上能够更有效地预测实例的类标集合,更适合概念漂移的环境.  相似文献   

15.
为了降低设置检查点的时间和空间开销,提出了一种两级检查点算法,其中组级采用协调检查点算法,系统级采用单阶段检查点算法.该算法基于分布式动态分组策略,通过发送分组来确保分组间不会产生孤儿消息,实现了由传统的两阶段提交算法到单阶段算法的转变.实验结果表明,算法执行时间较低,时间复杂度由通常的O(n2)降低到O(n),具有较...  相似文献   

16.
利用支持向量机方法研究GPS和雷达系统对机动目标联合测量中的数据融合问题.使GPS数据经时间配准处理与雷达数据达到时间同步,再经空间配准和坐标系变换后进行卡尔曼滤波,将滤波估计坐标值作为支持向量机的输入,以支持向量机为同步融合中心,输出为目标轨迹的融合估计值.仿真结果表明,这种方案可以达到比融合前数据更贴近真实值的效果.  相似文献   

17.
通过对现有动态组播路由算法及协议的研究和分析,在总结QoS动态组播路由问题研究现状的基础上,提出了一个协议框架,并就此协议框架中的动态问题、QoS问题及分层问题提出了一些理论上的解决办法.框架试图利用集中式算法作为组播路由的预计算方法,同时结合分布式地动态收集QoS信息,做出QoS相关的组播路由决定.把一些现代互联网的先进技术,如Anycast机制等,结合到组播路由算法中,使组播路由算法具有更大的灵活性和可扩展性.  相似文献   

18.
基于多Agent系统的数据融合算法评估平台框架   总被引:5,自引:0,他引:5  
研究了数据融合算法评估平台应具有的特点,给出了一种基于多agent系统数据融合算法的评估平台框架,讨论了框架中agent的结构和agent间的通信机制.利用该框架原型实现了单个融合算法和多融合算法组合的评估.  相似文献   

19.
为了有效地预测聚集查询的未来聚集值,提出了一种基于混沌理论的数据流连续聚集查询预测未来聚集值算法——CSPA算法.数据流看作是以数据到达时间为序的一个时间序列,借鉴传统时间序列分析技术探讨了连续聚集查询的未来聚集值预测问题,但由于数据流序列与传统时间序列在时间间隔和数据集的处理上存在很大差别,于是采用流滑动窗口技术加以处理.其次,针对目前数据流聚集查询预测领域已有的一些研究结果都未考虑流数据内在的复杂非线性动力学特征对预测的影响问题,该算法又利用了混沌理论中的局域预测思想解决了这一不足.实验结果表明,利用该算法进行预测具有很好的准确性.  相似文献   

20.
为解决数据流分类中概念漂移和噪声问题,提出一种基于互近邻的多源迁移学习方法。该方法存储多源领域上训练得到的分类器,求出目标领域数据块中每个样本的互近邻样本集合,然后计算源领域分类器对目标领域数据块中每个样本的互近邻样本集合的局部分类精度,最后将局部分类精度最高的源领域分类器和目标领域分类器进行加权集成,从而将多个源领域的知识迁移到目标领域。在仿真数据集上的实验结果表明,该方法能够有效避免伪近邻现象,与基于K-近邻的多源在线迁移学习方法相比,具有更好的分类准确率和抗噪稳定性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号