首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 83 毫秒
1.
作为数据挖掘的核心问题之一,检测离群点或异常值是及时发现故障和隐患问题的重要判断依据。随着物联网设备量的持续增长,传统的单维异常检测算法已经难以满足日益复杂的大数据应用场景。对多维、庞大的数据流进行异常检测时,容易发生检测速度慢和研判准确度下降的问题。本文提出了一个基于高维数据的改进LOF异常检测算法,以提高检测速度和检测精度。同时构建了一个面向海量监控指标数据的流式处理框架,保障异常检测的正常运行。实验结果表明,改进后的算法在准确率和计算效率上有明显提升。  相似文献   

2.
本文针对科技成果数据呈几何式增长的需求,提出了构建基于Hadoop的科技成果转化平台,并详细阐述了该平台的设计与实现。通过此平台可存储海量的科技成果,同时又为企业提供了快捷、精准的科技成果数据推送方式,对企业的科技成果转化率起到了积极的推动作用。  相似文献   

3.
针对医疗财务系统中数据规模庞大,而传统的数据检测手段难以发现其中细微异常数据的问题,设计了一套智能化的异常数据检测系统.该系统通过对异常数据的模式分析,并基于差异分析与全局分析的融合检测原理,实现了在海量数据中对细微异常数据的精确检测.在该检测系统的总体框架下,采用Wolpertinger架构,分别设计了作动网络、K近...  相似文献   

4.
随着网络技术的发展,用户的数据量呈现指数级的增长,产生的海量数据单靠一台高性能的计算机存储,成本很高,不适合大部分的用户。基于Hadoop分布式集群平台,在构建低价的硬件上,成本低,应用场合广泛,能够满足海量数据存储的需求。介绍了Hadoop发展前景趋势和三大核心技术,详细分析了分布式集群的构建方法,成功构建分布式集群平台。  相似文献   

5.
本文探讨构建基于Hadoop大数据的校务管理平台,实现精准化服务,创造提供一种更加高效、可靠的信息化管理工具,能够积极有效提升高职院校管理水平与行政效率。通过构建大数据平台,且对校务数据的学生行为开展数据挖掘和分析处理工作,人工设定标签,形成学生画像,通过画像直观地呈现学生特征属性,提升学生管理等工作效率的同时提高学校综合管理水平,支持高职校双高的建设。  相似文献   

6.
采用传统的关系数据库进行详单存储和查询,存在大数据量高并发查询情况下性能下降明显、无法支持线性扩展和设备扩容成本高周期长等问题.通过提出一种基于HADOOP的分布式详单系统的设计和实现方案,实现了基于HADOOP的详单存储和基于Redis内存数据库的高效详单查询.  相似文献   

7.
传统的异常检测方法采用不定时巡检和用户反馈等被动方式发现问题,效率低、无法主动发现故障。本文提出了一种基于日志数据的窗口化异常检测方法,首先对历史日志数据进行预处理,获取日志模式库,再将日志数据转换成事件统计矩阵,结合COPOD算法快速定位异常点,及时发现具体异常日志,保证检测高效及准确。经实验数据表明,本文提出的异常检测方法能有效检测出多事件中存在的异常数据,且在大数据处理过程中效率较高。  相似文献   

8.
随着社会生产的发展,政府监督和企业委托的产品质量检验产生了规模非常巨大的质检数据.这些数据持续快速增长,数据类型多样化,针对对海量的质检数据进行高效率的访问,并进行有效的分析利用,为政府和公众提供质量监管、预测和预警的帮助.现提出了一种基于Hadoop分布式计算技术进行存储和分析质检大数据的方法,设计了质检大数据分析的架构和主要部分的实现代码.该设计具有良好的高扩展性和高可用性,能满足质检大数据的存储和挖掘等要求.  相似文献   

9.
分析基于Hadoop平台的大数据分析关键技术面临的标准化问题,从数据采集、并行计算框架、分析结果输出、并行数据分析算法四个方面进行标准化的分析和调研,提出包含架构模型等四个方面的标准化方向以及相关API等方面的标准化建议。  相似文献   

10.
本文为了优化生产设备数据存储,提高数据的实时计算效率,利用基于Flink和OpenTSDB技术针对实时生产设备监控数据的时序化存储和实时计算过程进行优化。首先,通过时序数据库OpenTSDB对毫秒级设备实时监控的数据进行存储管理,实现分布式、可扩展的时间序列数据管理;然后,基于Kafka和Flink对实时设备监测数据进行实时计算分析,实现高并发设备监控场景下的低延迟响应;最后,通过实验测试OpenTSDB的写入性能,结果表明本系统能够有效进行生产设备实时监控数据的存储和分析计算。  相似文献   

11.
Offiine network traffic analysis is very important for an in-depth study upon the understanding of network conditions and characteristics, such as user behavior and abnormal traffic. With the rapid growth of the amount of information on the Intemet, the traditional stand-alone analysis tools face great challenges in storage capacity and computing efficiency, but which is the advantages for Hadoop cluster. In this paper, we designed an offiine traffic analysis system based on Hadoop (OTASH), and proposed a MapReduce-based algorithm for TopN user statistics. In addition, we studied the computing performance and failure tolerance in OTASH. From the experiments we drew the conclusion that OTASH is suitable for handling large amounts of flow data, and are competent to calculate in the case of single node failure.  相似文献   

12.
随着互联网上信息量飞速增长,海量数据的索引出现了难题,现行的索引方案已经难以提供高效、可靠的服务,为此,设计并实现了一种针对海量数据进行索引的平台模型。该平台模型首先利用Solr分布式索引器生成索引文件,然后利用Hadoop分布式集群,以HDFS分布式文件系统、Map Reduce分布式并行计算模型、Zookeeper同步协同系统以及Hbase分布式数据库技术来处理、协调管理索引和存储海量数据,最后通过实验测试,该平台模型可以克服现行的海量数据索引时存在的效率低的问题,同时具有良好的扩展性和可靠性。  相似文献   

13.
为了解决大量专利数据的存储和翻译问题,设计了一种基于Hadoop的专利翻译系统。针对数据存储该系统采用了HDFS和HBase相结合的混合式存储结构,对于翻译过程则采用Hadoop并行翻译模型-MapReduce。通过实验证明,相比于传统的翻译方法该系统具有更好的数据存储和翻译性能。  相似文献   

14.
针对目前气象数据存储所面临的海量扩张、高并发读写、结构化和非结构化数据并存以及长时间序列和大数据集检索效率低下等问题,提出了以Hadoop开源框架为基础的气象数据分布式存储方案.通过对气象数据自身属性和特点进行分析,得出了气象数据在经过充分优化的基础上,在分布式存储框架中具有很强的适应性和规模化应用的潜力;并在HBas...  相似文献   

15.
随着因特网普及和信息技术广泛应用,网络上大量的色情、暴力、反动等不良信息的入侵。对于不良信息的检测和传播控制显得越来越重要,关系到国家安全和社会稳定。单机模式的不良信息的甄别与检测已不能满足社会的需求,Hadoop云平台作为能够对大量数据进行分布式处理的软件框架,提供了MapReduce,、分布式文件系统HDFS有助于文本安全检测的并行化处理。为此文中提出一种基于Hadoop云平台,可以通过句式结构的判别上下文逻辑的关联性对不良信息的并行检测的模型,减少了检测时间,提高了检测效率。  相似文献   

16.
毛娜 《信息技术》2022,(2):145-150
在油气产业快速发展进程中,大数据平台的建立和完善发挥着重要作用.文中针对油田工作现场的相关数据本身具有数据规模大、每个个体数据之间关联性强、结构多样等特点,利用Hadoop这一技术对石油产业大数据平台进行设计和完善.新型大数据平台可以针对复杂多样的数据进行整合,并且每个层面的数据可以互相共享和联系.构建出的大数据平台经...  相似文献   

17.
基于Hadoop平台下的Canopy-Kmeans高效算法   总被引:3,自引:0,他引:3  
赵庆 《电子科技》2014,27(2):29-31
介绍了Hadoop平台下MapReduce的编程模型;分析了传统聚类Kmeans和Canopy算法的优缺点,并提出了基于Canopy的改进Kmeans算法。针对Canopy-Kmeans算法中Canopy选取的随机性问题,采用“最小最大原则”对该算法进行改进,避免了Cannopy选取的盲目性。采用MapReduce并行编程方法,以海量新闻信息聚类作为应用背景。实验结果表明,此方法相对于传统Kmeans和Canopy算法有着更高的准确率和稳定性。  相似文献   

18.
互联网的发展使得计算密集型的任务正在逐渐走向分布式和云计算。文中对Hadoop项目中的MapReduce和HDFS进行了研究,采用HDFS作为底层分布式文件系统,MapReduce作为编程框架来实现哈希算法。通过对多个节点中的测试结果的分析表明,在Hadoop上运行哈希函数的任务,能够起到在多台计算机的群集中分摊负载的效果,并且有效地减少了任务的总时间开销。以Hadoop为基础的云计算平台具有良好的可靠性和可扩展性,对于哈希算法在Hadoop平台上的实现和测试,为将来密钥恢复等系统的研究和搭建提供了良好的基础。  相似文献   

19.
Hadoop是一个免费、可靠、高效、可扩展的开源云平台,允许在分布式集群上处理大数据的软件框架。本文以Hadoop为基础,详细介绍了虚拟机VMware、JDK、CentOS、Hadoop等技术。在伪分布式环境下搭建虚拟云平台,经过测试,本系统能正常运行MapReduce化的分布式程序,本文还针对用户权限、路径配置和使用SSH服务程序等问题进行了详细的阐述,为基于Hadoop的云平台研究和应用程序开发提供了基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号