首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
为了减少虚拟环境下大数据运行时间,数据运行时能够反映出一定的规律性和特殊的分类性,需要对虚拟环境下大数据进行智能并行聚类。当前大数据聚类方法是根据K-均值聚类方法不断地进行大数据样本分类的调整,经过多次计算调整后达到数据并行聚类的效果,但每当有新的大数据流入时,都需要对当前全部数据进行K-均值聚类,计算过程复杂,聚类效率低。为此,提出了一种基于MapReduce的虚拟环境下大数据智能并行聚类方法。首先在虚拟环境下大数据中抽取小规模数据集并确定大数据簇的质心,采用Single法对所抽样的小规模数据进行聚类,获得虚拟环境下大数据属性的均值,利用最小距离分类规则将大数据属性的均值快速地向数据簇的真实中心移动,依据Davies-bouldin指标假设一个数据簇离散度参数,在此参数值中选出大数据智能并行聚类相似度最大值,最后利用聚类相似度最大值得到Davies-bouldin指数,以Davies-bouldin指数为基础将多个类别的质心间距以及聚类离散度指定阈值合并为一个类并进行迭代计算,得到数据最佳聚类中心位置,由此完成虚拟环境下大数据智能并行聚类。仿真实验结果证明,所提方法提高了大数据智能并行聚类的灵活性和普遍适用性,减少了聚类时间,并适合应用于教育技术领域,不仅可以使教育技术网络数据更加合理化,而且更加规范化。  相似文献   

2.
针对传统的大数据信息监控云平台模式单一、虚拟化程度不高,容易导致信息泄露的问题,为了提高对大数据的信息安全溯源能力,提出基于Hadoop的大数据信息安全监控云平台设计方法。在信息资源云体系下构建大数据信息安全融合模型,通过信息挖掘与匹配方法把云平台中的数据资源、物理资源进行关联性整合,方便数据安全溯源,在Hadoop平台下构建多源信息资源云,建立用户接口注册机制,采用虚拟化技术进行信息保护,实现在云平台下进行信息安全溯源。实验结果表明,采用该方法进行大数据信息安全溯源,大数据信息分类存储性能较好,对异常数据挖掘精度较高。具有较好的信息安全保护能力,确保了信息安全。  相似文献   

3.
孙玉强  李媛媛  陆勇 《应用声学》2016,24(7):272-275, 279
针对传统的聚类算法K-means对初始中心点的选择非常依赖,容易产生局部最优而非全局最优的聚类结果,同时难以满足人们对海量数据进行处理的需求等缺陷,提出了一种基于MapReduce的改进K-means聚类算法。该算法结合系统抽样方法得到具有代表性的样本集来代替海量数据集;采用密度法和最大最小距离法得到优化的初始聚类中心点;再利用Canopy算法得到粗略的聚类以降低运算的规模;最后用顺序组合MapReduce编程模型的思想实现了算法的并行化扩展,使之能够充分利用集群的计算和存储能力,从而适应海量数据的应用场景。文中对该改进算法和传统聚类算法进行了比较,比较结果证明其性能优于后者。这表明该改进算法降低了对初始聚类中心的依赖,提高了聚类的准确性,减少了聚类的迭代次数,降低了聚类的时间,而且在处理海量数据时表现出较大的性能优势。  相似文献   

4.
袁小艳 《应用声学》2016,24(1):66-66
随着数据的海量增长,数据聚类算法的研究面临着海量数据挖掘和处理的挑战。针对K-means聚类算法对初始聚类中心的依赖性太强、全局搜索能力也差等缺点,将一种改进的人工蜂群算法与K-means算法相结合,提出了ABC_Kmeans聚类算法,以提高聚类的性能。为了提高聚类算法处理海量数据的能力,采用MapReduce模型对ABC_Kmeans进行并行化处理,分别设计了Map、Combine和Reduce函数。通过在多个海量数据集上进行实验,表明ABC_Kmeans算法的并行化设计具有良好的加速比和扩展性,适用于当今海量数据的挖掘和处理。  相似文献   

5.
林明方 《应用声学》2017,25(7):282-284, 289
为了提高异构式分布下的internet数据的利用率,增加internet的多样化使用功能和数据传输率,减少internet运行的时间,需要对异构式分布下的internet数据进行挖掘。当前的数据挖掘方法多是先采用SOM系统的可视化功能对异构式分布下的internet数据进行聚类,然后根据聚类结果的计算完成对异构式分布下的internet数据挖掘。但该方法存在操作过程复杂,internet数据经常性丢失的问题。为此,提出了一种基于本体论的异构式分布下的internet数据挖掘优化方法。该方法首先对异构式分布下的internet数据进行预处理选取出数据特征,并利用特征选择决策系统对挖掘数据进行特征选择,在此基础上利用信息熵实现异构式分布下的internet数据的过滤,过滤过程中通过信息熵数据过滤的理论值减小的变动,得到最佳数据过滤值,最后以预处理中获得的各项数据信息为基础,采用决策树生成算法中的信息增益值的迭代计算结果对异构式分布下的internet数据进行高精度挖掘。仿真实验结果证明,所提方法提高了异构式分布下的internet数据操作的灵活度,增加了internet数据的可循环利用率,使异构式分布下的internet操作更加简洁化、高效率化,为该领域的研究发展提供了强有力的依据。  相似文献   

6.
为提高光电系统对弱小目标的识别和分类能力,降低算法对硬件平台和数据的依赖,提出一种无监督分类方法−基于目标深度特征聚类的细粒度分类方法。该方法通过轮廓、颜色、对比度等浅层特征提取提示目标,经超分辨处理后,利用卷积神经网络对目标的深层特征进行编码,进一步采用基于注意机制的主成分分析方法进行降维生成表征矩阵,最后利用聚类的方式实现目标细粒度分类。实验验证了基于不同神经网络的深度聚类方法在不同数据集上的分类性能,其中采用ResNet-34聚类方法在CIFAR-10测试集上细粒度分类性能达92.71%,结果表明,基于深度聚类的目标细粒度方法能够取得与强监督学习方法相当的目标分类效果。此外,还可以根据不同簇数和聚类等级的选择实现不同细粒度的分类效果。  相似文献   

7.
李媛媛  孙玉强  晁亚  刘阳 《应用声学》2016,24(12):58-58
传统聚类算法K-Medoids对初始点的选择具有随机性,容易产生局部最优解;替换聚类中心时采用的全局顺序替换策略降低了算法的执行效率;同时难以适应海量数据的运算。针对上述问题,提出了一种云环境下的改进K-Medoids算法,该改进算法结合密度法和最大最小原则得到优化的聚类中心,并在Canopy区域内对中心点进行替换,再采用优化的准则函数,最后利用顺序组合MapReduce编程模型的思想实现了算法的并行化扩展。实验结果表明,该改进算法与传统算法相比对初始中心的依赖降低,提高了聚类的准确性,减少了聚类的迭代次数,降低了聚类的时间。  相似文献   

8.
利用溶度参数法和Materials Studios软件的Blends模块计算聚环氧氯丙烷单体与烷烃类溶剂分子的相互作用参数x,将计算结果与手册中的实验数据进行对比.根据对比结果建立了相互作用参数计算值与实验数据间的数理模型.比较分析所有数理模型的结果表明:Blend模块的计算结果与实验数据间拟合得到的数理模型为较优模型,运用该数理模型对计算结果进行修正后可提高计算得到的相互作用参数的准确性.  相似文献   

9.
基于谱聚类与类间可分性因子的高光谱波段选择   总被引:1,自引:0,他引:1  
随着遥感技术和成像光谱仪的发展,高光谱遥感图像的分辨率不断提高,其庞大的数据量在提高其遥感探测能力的同时,也给分析和处理带来了很大的困难。高光谱波段选择可以有效减少数据冗余,提高分类识别精度和处理效率。因此如何从多达数百个波段的高光谱图像中选择出具有较好分类识别能力的波段组合是亟待解决的问题。针对上述问题,采用基于图论的谱聚类算法,将原始高光谱图像中的波段作为待聚类的数据点,利用互信息描述两两波段间的相似度,生成相似度矩阵。再根据图谱划分理论,将相似度矩阵生成的非规范化图拉普拉斯矩阵进行谱分解,得到类间相似度小且类内相似度大的类簇;然后根据地物类型计算各波段的类间可分性因子,将其作为类簇内进一步选择代表性波段的参考指标,达到降维的目的;最后通过支持向量机与最小距离分类方法对波段选择后的图像分类。该方法区别于传统的无监督聚类方法,采用基于图论的谱聚类算法,并根据先验知识计算类间可分性因子来选择波段。通过与自适应波段选择算法和基于自动子空间划分的波段指数算法的对比实验,结果表明:两组实验当聚类数目达到相对最佳时,该波段选择方法支持向量机图像总分类精度达到94.08%和94.24%以上,最小距离分类图像总分类精度达到87.98%和89.09%以上,有效保留了光谱信息,提高了分类精度。  相似文献   

10.
食品的品种不同则其含有营养成分和功效存在差异,得到的傅里叶变换红外光谱也存在差异。为了准确的实现品种分类,设计了一种将傅里叶变换红外光谱与模糊聚类分析方法相结合的品种鉴别方法。在模糊Kohonen聚类网络(FKCN)基础上将模糊K调和聚类(FKHM)引入到Kohonen聚类网络的学习速率和更新策略中,提出了模糊K-Harmonic-Kohonen网络(FKHKCN)算法。FKHKCN利用模糊C均值(FCM)聚类的模糊隶属度计算其学习速率,以FKHM的聚类中心为基础通过推导计算得到FKHKCN的聚类中心,可以解决模糊Kohonen聚类网络方法对于初始类中心敏感而导致聚类结果不稳定的问题。FKHKCN作为一种模糊聚类算法,可实现傅里叶变换红外光谱数据的聚类分析。采用三种数据集:(1)采集产自四川的三种茶叶(优质和劣质的乐山竹叶青以及峨眉山毛峰)作为实验样本,样本总数为96。(2)两个品种(robusta和arabica)的咖啡样本。(3)三个品种(鸡肉、猪肉和火鸡)的肉类样本。首先对三个光谱数据集进行预处理,利用多元散射校正降低茶叶样本原始光谱数据集的散射影响,使用Savitzky-Gol...  相似文献   

11.
高维数据挖掘由于特征空间占用开销较大,挖掘的复杂度较高,挖掘精度不高,为了提高对高维数据挖掘的准确性能,提出一种基于相空间重构和K-L变换特征压缩的高维数据挖掘数学建模方法。采用集成学习技术,对高维数据信息流进行相空间重构处理,考虑类间的数据不平衡性,求得高维数据的关联维特征参量,根据数据的链距离进行稀疏性融合,计算高维数据流模型的最大Lyapunove指数谱,根据谱分析方法实现数据聚类,对聚类后的数据采用K-L特征压缩方法进行降维处理,降低数据挖掘的内存及计算开销。仿真结果表明,采用该方法进行高维数据挖掘,数据挖掘的准确概率较高,占用内存消耗较少,计算开销较小。  相似文献   

12.
Using a portfolio of stocks from the London Stock Exchange FTSE100 index (FTSE), we study both the time dependence of their correlations and the normalized tree length of the associated minimal spanning tree (MST). The first four moments of the distribution of correlations and lengths of the tree are examined in detail and differences in behavior noted. For different economic groups and industries, clustering is evident. However, comparing the classification used prior to 2006 with that introduced in January 2006 it is clear that the new classification, apart from one or two notable exceptions, is much more compatible with the clustering obtained by the MST analysis. We finally compare the MST for real data with that obtained for a synthetic random market. The latter tree would seem more like the structure found by Coronnello et al. for trees based on high-frequency data.  相似文献   

13.
利用蚕豆叶片可见-近红外反射光谱结合导数光谱对健康、少量、大量虫害三种等级的实验样本进行光谱特征分析,并选择虫害检测最优波段。采用Hadoop,Spark和VMWare虚拟机搭建云计算平台,使用MLlib机器学习库实现人工神经网络(ANN)和支持向量机(SVM)分类算法,并对三种等级蚕豆叶片全波段和最优波段光谱进行分类建模与预测。结果表明ANN虫害光谱分类模型准确率优于SVM虫害光谱分类模型,并且在云平台上运行效率更高,同时全光谱波段的预测准确性高于最优波段。通过扩展光谱数据集,云计算技术在光谱数据挖掘中的计算效率有显著提升。云计算分类检测可以为作物生物胁迫光谱识别提供新的技术和方法。  相似文献   

14.
频繁模式是频繁出现在数据集中的模式,在数据挖掘中起着非常重要的作用。针对恒星光谱分类任务,在频繁模式的基础上,提出一种基于分类模式树的恒星光谱分类规则挖掘方法。首先根据数据库中恒星光谱各属性出现的频率不同,其在分类中的重要程度也不同的特征,提出一种新的树型结构——分类模式树,给出了相关概念及其构造方法SSCPTC,然后,将恒星光谱的特征信息映射到分类模式树上,通过采用自顶向下和自底向上两种模式相结合的方法对分类模式树进行遍历,实现分类规则的提取,同时引入模式有用度的概念来调整分类规则的数量、提高分类模式树的构造效率;最后采用国家天文台提供的SDSS恒星光谱作为实验数据,验证了该方法的正确性,而且具有较高的分类正确率。  相似文献   

15.
陈湘辉 《应用声学》2017,25(6):42-42
近年来,随着互联网技术飞速发展与普及,大量社交网络平台迅速崛起。社交网络平台拉近了日常人际关系,提供了便捷的信息通讯交流通道。同时,针对社交网络平台数据挖掘的技术研究成为不可缺少的网络数据研究领域一部分。现有社交网络数据挖掘技术所采用的传统数据挖掘算法与数据分离模式,存在大数据多元特征条件下,数据挖掘准确度降低、挖掘分类逻辑混乱等现象。针对问题产生根源,提出基于朴素贝叶斯算法的社交网络数据挖掘技术研究。采用基于朴素贝叶斯算法设计的PCIE-FN社交网络数据挖掘平台进行全面化的深入性解决。通过实验证明,提出的基于朴素贝叶斯算法的社交网络数据挖掘技术研究,各项数据满足社交网络数据挖掘日常应用要求。  相似文献   

16.
陈胜  刘晓放  张承模  王家军 《应用声学》2017,25(10):240-243
电力系统是一个由多个子系统构成的综合性系统,作为一个能够实现海量数据处理同时具有高实时性、高可靠性的管理控制平台,需要电力系统能够实现对所辖多个子系统进行复杂、细密、大范围的访问控制,这些条件要求能够设计出合理有效的访问控制模型。为了实现安全、可靠、高效的电力系统访问控制提出了将传统电力系统同云存储平台相结合的访问控制方案,通过云存储平台对数据进行存取可以达到大数据量、均衡负载、安全可靠的目的;通过添加可信度因子构建访问控制模型,根据不同用户的可行度计算值分配给以不同的权限,匹配其可操作的资源,实现了对于用户操作对象的细化识别。  相似文献   

17.
针对常规视频监控系统在线实时性不强,海量视频数据传输迟滞,任务管理单一等问题,提出了构建在云计算环下基于多虚拟机技术在线视频监控系统 ,利用云计算平台中的物理资源与服务资源提升在线视频监控系统数据处理能力,虚拟机可同时处理大量的视频监控数据,并将视频数据以云存储的方式存储于云端服务器,降低了设备建设成本,可根据不同用户需求定制相关服务。本系统基于云计算平台设计,应用数十台乃至数百台虚拟机对在线视频监控数据进行处理,设计实现了云平台下在线视频监控系统的结构设计、以太网通信接口设计、服务器硬件配置和虚拟机控制。在软件设计方面通过对各虚拟机资源利用率的计算而动态分配资源,从而可以有效减少网络传输系统状态信息的带宽开销。通过系统功能与性能测试表明,在常规公共网络10M带宽的情况下,本系统在线视频监控数据的传输延迟时间相比于传统视频监控减少了85%以上,监控视频数据量减少了75%以上。  相似文献   

18.
黄富平  梁卓浪  邢英俊  杨春丽 《应用声学》2017,25(7):260-263, 268
近年来,随着我国互联网技术的飞速发展与大规模网络运算平台研究的深入,云平台下的数据处理已成为大规模数据的主要处理方式。但是,现有的云计算Hadoop平台在海量数据异常涌入状态下,常常出现数据逻辑错误、数据链完整性缺失、数据失效的问题,造成无法对上述异常数据进行有效检测处理,严重影响云计算Hadoop平台的数据运算准确性。针对上述问题,提出云计算Hadoop平台的异常数据检测算法研究方法。采用JNS数据采集筛查模组、算法逻辑补偿模组与动态反馈模组对现有的云端计算平台存在的问题进行针对性解决。通过仿真模拟实验证明,提出的云计算Hadoop平台的异常数据检测算法研究方法,具有异常数据识别率高,准确性高,速度快、可实施性强、稳定性好的特点。  相似文献   

19.
随着大数据时代的到来与高速网络建设的快速推进,数据化网络资源共享已渗透到人们的日常工作、学习、生活当中。数据网络化储存、多人资源共享成为现代信息传播与保存的重要方式。但是,网络储存平台的安全性一直令使用者担忧。因此,各种各样的私有云储存平台孕育而生,为使用者提供相对独立的个人使用空间。经过长期的使用发现,传统的私有云存储平台虽然可以达到一定的安全性,但是,安全性只相对公共开放网盘而言。同时,存在多用户瞬时访问下协议拥堵、大数据交互节点回馈延迟高的问题。针对传统私有云的架构特点与问题产生原因,提出基于NAS的私有云存储平台的设计与实现方法。采用基于NAS的协议加密技术、多路访问优化单元、数据压缩单元对传统私有云存在的问题进行针对性解决。通过仿真实验证明,提出的基于NAS的私有云存储平台的设计与实现方法,具有数据储存安全性高、峰值状态下访问点网络畅通性好、数据网络传输交互率高、延迟小等优点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号