首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
随着网络技术的发展,网上的信息资源越来越丰富,怎样对web上海量的数据信息进行深层次的应用成了数据挖掘技术的研究热点.而XML能够为Web挖掘提供半结构化的数据模型,解决了Web挖掘中的数据源问题.文章通过介绍Web数据挖掘的分类和总体流程,探讨了XML在Web数据挖掘中的应用,进而在此基础之上提出了一种基于XML的Web数据挖掘模型,剖析了该模型的各个组成部分.  相似文献   

2.
挖掘泛化序列模式的一种有效方法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对有时间约束的泛化序列模式的挖掘问题,提出了一种有效的挖掘方法,与已有的算法相比,主要通过采取两种技术来提高效率,一是事先找出每个数据序列支持的序列模式,从而去除了时间因素,用一个快速算法求解决匹配问题;二是在数据序列重复较多时采用直接求交的方法,在此基础上提出了一个基于数据库划分的挖掘算法。  相似文献   

3.
以德国Rossmann商场的数据为例,通过对数据的探索性分析,以相关背景业务知识体系为基础,通过可视化分析,提取隐含在数据里的特征,使用性能较优的Xgboost方法进行规则挖掘,取得较好效果。为进一步提高Xgboost方法的预测精度和泛化性能,论文结合特征工程,采用集成学习方法,利用GLMNET和Xgboost模型拟合残差,结合LM、TSLM在趋势和季节性预测的优点,提出一种基于Xgboost的优化组合模型用以对行业数据进行预测,通过实验验证了该组合模型具有较好的精度和泛化能力。  相似文献   

4.
人、车、路、环境和交通管理构成了道路交通系统,造成道路交通事故的原因是综合、复杂的。正确快速地分析事故成因,有助于提升交通管理水平,减少交通事故的发生。近年来,关联规则模型及其扩展在事故多发点成因分析中备受关注。针对关联规则分析中传统的兴趣度度量方法和Apriori算法的局限,考虑小概率因子对交通事故的影响,提出了改进的交通事故多发点成因分析方法,明确评价因素和结果之间的关联程度,提高挖掘效率。基于浙江省某市交通事故数据,结合人、车、环境与时空因素对方法进行了验证,并对方法的分析效率和结果的有效性进行了讨论。  相似文献   

5.
基于多媒体数据库的数据挖掘系统原型   总被引:22,自引:2,他引:20  
提出了一种多媒体数据挖掘的系统原型 MDMP.介绍了 MDMP原型构件和开采函数 ;描述了挖掘处理与知识表示 ,讨论了多媒体数据特征立方体构建及在线分析挖掘 OL AM机制 .MDMP用于从多媒体数据库中挖掘出隐含的用户感兴趣的知识 .  相似文献   

6.
博客(Blog)网站作为近年来新型的网络媒体得到越来越多的个人和企业的关注,因此针对Blog数据设计了相应的数据分析系统.并介绍了Blog数据分析与传统Web挖掘的区别和联系,阐明研究了Blog数据的必要性,其次详细分析了本系统的主要功能模块及其实现方法,最后采集中国博客网的数据对本系统进行验证,实验结果显示本系统是可行且有效的.  相似文献   

7.
大数据及其科学问题与方法的探讨   总被引:2,自引:0,他引:2  
大数据的规模和复杂度的增长超出了计算机软硬件能力增长的摩尔定律,对现有的IT架构以及计算能力带来了极大挑战,也为人们深度挖掘和充分利用大数据的大价值带来了巨大机遇.因此,针对网络大数据的共性规律和科学问题,需要研究网络大数据定性定量分析的基础理论与方法.本文重点分析了大数据在数据关联上的复杂性、计算复杂性、系统的复杂性、学习复杂性四个方面的主要研究问题和现状,介绍小结了产业界具有代表性的实际应用IT基础架构,以形成从网络大数据的感知、挖掘获取、质量评估、数据提炼处理到融合表示的综合过程图景,最后对大数据科学、数据计算需要的新模式与新范式(第四范式)等方面的发展趋势和方向进行了展望探讨.  相似文献   

8.
Web挖掘是指从Web数据资源中自动发现和提取信息,尽管标准的数据挖掘方法可能适用于Web挖掘,但对于大多数基于Web的信息处理过程有必要设计特定的算法.提出了一个用于提取隐藏在数据资源中的信息的抽象Web挖掘模型.  相似文献   

9.
概念设计对产品的创新性和研发周期具有决定性的影响,为了提高产品概念设计的效率和水平,提出一种以网络评论和专利数据为核心的产品概念设计知识服务方法.在该方法中,构建了基于网络产品评论数据和专利数据的产品概念设计知识服务模型,应用文本挖掘技术从产品评论数据中挖掘用户需求信息,构建专利技术功效矩阵,挖掘专利的技术和功效信息,进而向设计人员提供用户需求及相应的专利技术方案等设计知识.最后,以多家企业作为实例,验证该方法的有效性.  相似文献   

10.
针对目前台风路径预报研究中存在的预报精度不高、预报时次高耦合等缺陷,提出了一种基于神经网络集合预报的台风路径预报优化模型。运用混合模式集合预报思想和反向传播的多层前馈训练机制,充分挖掘数据特征,解决了单集合预报的固化性问题和单神经网络预报模型的随机性问题,为现有台风数值预报方法和人工智能技术的结合提供了新思路。以2018年活动在西北太平洋、南海地区的台风为样本进行对比实验,结果表明,60 h内的预报精度均得到了提高,一定程度上反映了该模型的实际应用价值。  相似文献   

11.
多媒体文本数据的模式挖掘方法   总被引:5,自引:0,他引:5  
给出了多媒体文本数据挖掘(MTM)的定义和分类,提出了多媒体文本数据挖掘过程模型(MTMM)及其特征表示,讨论了多媒体文本类挖掘方法,MTM与Web挖掘的区别与联系,以期发现有用的知识或模式,促进MTM的发展和应用。  相似文献   

12.
数据流最频繁K项挖掘是指在数据流中找出K个项,它们的支持数大于数据流中的其他项.已有的一些算法只能挖掘整个数据流的频繁K项,而无法找出距离最近的任意时间段内的最频繁K项.因此,提出一种基于多层概要结构的数据流最频繁K项挖掘算法MMF(K)_MS,新算法利用各层节点数目可变的HFVN框架结构来支持对不同时间粒度的查询,同时采用Count-Sketch数据结构来维护各层的概要信息,并通过实验验证了算法的有效性.  相似文献   

13.
针对当前企业级信息处理业务中普遍存在的问题,结合数据网格技术,提出一种新型的联邦数据服务FDSS。FDSS建立了联邦数据服务模型FDSM,提供对广域分布环境下异构企业信息的高效处理和透明管理,并通过本域数据服务和多域联邦数据服务实现信息资源的统一访问和跨域共享。FDSS适用  相似文献   

14.
研制空间数据库管理系统,提出一种G树的空间模型和动态格网的操作算法,设计实现了基于页面的新的空间索引机制,有效的解决了N维空间数据的索引问题.  相似文献   

15.
利用数据包络分析(DEA)方法来测算浙江省11个地区的农业技术效率和规模效率,并对地区差异进行分析.  相似文献   

16.
一种基于图的分水岭区域合并算法   总被引:1,自引:0,他引:1  
介绍了一种对分水岭算法的初始分割结果进行区域合并的方法。该方法计算每一待合并区域与所有邻居之间的"不相似度"函数值,以此为依据进行区域合并;算法使用了图(Graph)数据结构来存储区域间的相邻信息。实验结果表明,此方法能够较好地从大量的区域中找出那些相似的区域并将其  相似文献   

17.
数据挖掘问题是提高k-匿名隐私保护模型下数据可用性问题之一.通过分析发现,k-匿名表中准标识符属性值与利用精确表生成的判定树的部分非叶结点的属性值均是通过泛化产生的,根据这一对应关系,本文提出了一种基于k-匿名表的判定树生成算法.该算法直接以k-匿名表作为输入,避免了经典ID3算法运行前的数据准备工作.实验表明,该算法节省了建立概化层次树的时间,并且行之有效.  相似文献   

18.
光线空间(Ray Space)描述是目前实现复杂场景自由视点电视(FTV,Free Viewpoint Television)的主要技术,光线空间的数据压缩是基于光线空间FTV的一个关键技术.本文提出了光线空间中"片"的概念,对片的纹理特性进行了分析.根据光线空间的规则纹理分布以及光线空间数据在纹理方向上有明显的相关性,提出了基于片内预测对光线空间数据进行压缩的方法,实验证明了所提出算法的有效性.  相似文献   

19.
对机读卡民文信息采集系统的探讨   总被引:3,自引:2,他引:1  
针对当前新疆维吾尔自治区招生考务管理工作中急待解决的一个问题,即万卡通数据录入系统(GDRS)只能识别英文,汉文而无法识别民文的问题,设计出在无民文DOS系统的支持下也可以采集民文信息的新方案,本项目1996年在自治区教委立项并研制成功,填补了新疆计算机考务管理工作的空白,在1997年的普通高校招生统一考试,录取工作中推广实用,效果很理想。  相似文献   

20.
一种基于XML的第3方EDI系统   总被引:1,自引:0,他引:1  
论述了XML技术在国际贸易和物流电子数据交换中的应用,研发了一种新型的第3方电子数据交换系统结构,能够实现对X12、EDIFACT和XML格式电子数据的平台式交换,系统具有较高的安全性和可扩展性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号