排序方式: 共有117条查询结果,搜索用时 437 毫秒
1.
为满足信息化处理需求的增长,提出MPI在云计算领域的应用研究。文章在介绍了云计算的优势、MPI概念的基础上,将MPI并行程序与并行机群系统及云计算平台整合在一起,借助Hadoop框架,充分利用MapReduce模式来实现并行化云计算对应的MPI算法。研究结果分析表明,该算法是可行的,可有效提高MPI并行处理的性能。 相似文献
2.
3.
4.
在分析了社交网络的发展和研究现状后,结合现有的网络流量识别方法和社交网络流量特征属性,提出了一种基于KMeans聚类算法的无监督学习社交网络流量识别方法.为了提高处理的高效性、实时性,利用开源云计算平台如doop上提供的M印Reduce架构进行分布式并行处理.对比实验结果表明,提出的方法能快速、高效的识别社交网络流量,并且识别准确率有显著提高. 相似文献
5.
《电子技术与软件工程》2016,(4)
XML因其自描述性和可扩展性作为网络中一种主要数据形式得到越来越多的应用,单一XML文档数据量变得越来愈大,如何有效求解满足一定查询语义的结果是XML数据查询技术的一个核心问题,其中基于XML文档对应文档树采用的编码是影响查询效率的关键因素。本文实验过程是通过MapReduce计算框架完成,将前缀流编码作为研究对象,提出了一种新的编码MINDewey码。对比Dewey码,ED码,通过在分布式集群下编码效率提高了至少10%。 相似文献
6.
研究源自于MapReduce系统的一类排序问题。给定两台恒速机和一组按列表到达的工件,每个工件包含两类任务:Map Task和Reduce Task。假设Map任务和Reduce任务都是不可中断的,Map任务可以并行处理,即可以任意分割成若干小的任务并在两台机器上同时处理,而Reduce任务只可以在单台机器上处理。一旦工件到达,必须为其指派机器和开工时间,目标是使得最后完工时间最小。对LSc算法的竞争比进行了分析,得到其一般情形下的竞争比当$s\geq(1+\sqrt{5})/2$时为$1+1/s$,否则为$1+s/(s+1)$。而当每个工件$J_j$都满足其Map任务总长大于等于Reduce任务总长时,其竞争比当$s\geq(1+\sqrt{3})/2$时不超过$1+1/(2s)$,否则为不超过$1+s/(2s+1)$。 相似文献
7.
一种基于云计算的关联规则Apriori算法 总被引:1,自引:0,他引:1
关联规则是数据挖掘的重要方法之一,它基于支持度和置信度等对规则进行选择,以生成有用的规则。传统的关联规则算法需要读取数据库计算频繁集,开销巨大。随着云计算的发展,MapReduce编程架构已经成为云计算中的重要技术,针对Apriori算法的不足,设计了一种算法将云计算MapReduce框架进行了适当改进,并在此基础上编写了Apriori算法,以解决Apriori算法扩展性差的弱点。实验表明:该算法能有效提高Apriori算法的性能。 相似文献
8.
针对传统Hadoop平台架构中单名字节点瓶颈和对小文件存储支持不理想的问题进行优化。首先针对第一个问题,增加节点层次并在第二层增加NameNode数量等措施,解决了单名字节点瓶颈;又通过在原 HDFS 的数据存储过程中增加合并处理模块,实现小文件合并为大文件处理的方法,提升了小文件的访问效率。实验数据对比表明这些方法是有效、可行的。 相似文献
9.
《信息技术》2015,(10)
Hadoop是Apache基金会所开发的支持涉及数千个节点和海量数据的分布式计算的高级项目。它是一个开源免费的软件框架,受到谷歌的MapReduce和谷歌文件系统(GFS)的启发,由Java语言实现,全球的开发志愿者共同对它进行完善。Hadoop的子项目包括HDFS,MapReduce,HBase,Hive等。HDFS是一个分布式文件系统,提供高吞吐量的应用数据接口使得Hadoop具有很好的性能。MapReduce是一个软件框架,它执行涉及海量集群数据的分布式计算的MapReduce算法。尽管Hadoop被广泛使用,但它仍然存在一些影响性能的缺陷,对于小文件的处理能力就是其中缺陷之一。档案文件(Hadoop Archives)和序列文件(sequence files)是两种现有的改善小文件处理问题的解决方案,但它们仍然有各自的不足,提出一个解决方案,保留它们的优点使Hadoop在处理小文件上拥有更好的性能。 相似文献
10.