首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
特征构造的难题在数据挖掘过程中一直存在,传统固化的特征工程对于业务场景千变万化的数据挖掘任务所带来的效益十分有限,因此解决特征工程的特征构造问题已经成为数据挖掘的瓶颈之一;尤其在机器学习算法快速发展的情况下,特征逐渐成为模型中急需重视的部分。基于电商平台的用户行为数据,在原有特征群的基础上提出了二次组合统计特征的构建方法。利用二次交叉衍生出丰富而又切合业务场景的特征群,同时结合两种滑动窗口的方法,分别是定长滑动窗口获取更多的训练样本,变长滑动窗口获取具有时间权重的训练特征,以此来最大限度地还原出用户真实的行为习惯。最后,使用不同的特征组合结合降维的方法建立对照检验模型;并利用线性的逻辑回归模型、线性支持向量机以及树模型极端随机森林与XGBoost对模型进行交叉验证。结果表明,组合特征在树模型的算法中得到了非常好的表达效果;而且无论在线性模型还是树模型中衍生特征群模型的F1值都优于基础特征群。  相似文献   

2.
【目的】利用“大数据”对城市居民出行量(OD)的预测方法进行改进,以期改善传统城市居民出行调查方法费时、费力且准确度不高的问题,同时也为城市公共交通规划与管理提供可靠的数据支持。【方法】结合手机信令数据、公交IC卡、公交GPS以及地铁闸机数据的特点和优势,利用聚类分析等方法获取城市居民公共交通出行的OD矩阵,并利用小波神经网络结合优化后的鲸鱼算法(improved whale optimization algorithm-wavelet neural network, IWOA-WNN)对未来时段的出行OD矩阵进行预测。以长沙市为例,选取60 d晚高峰期间的原始数据,利用IWOA-WNN进行预测,并结合时间序列方法进行分析。【结果】与优化前的小波神经网络相比,IWOA-WNN的预测结果更加贴近实际情况,精度达到了93.36%。【结论】本研究提出的数据处理及预测方法具有更高的准确度。  相似文献   

3.
为全面了解老年人的出行行为特征现有的研究进展,运用知识图谱分析和传统文献研究相结合的方法,通过Web of Science核心合集数据库和CNKI知网数据库,获取了在1993~2020年间出版的老年人出行研究相关中英文文献,分别为303篇和367篇(数据采集的最后时间均为2020年8月16日).重点探讨了近10年老年人...  相似文献   

4.
机器学习算法广泛应用于电商用户行为数据分析及商业预测.其中,XGBoost算法作为一种常用的有监督机器学习算法,能够实现电商用户行为特征最优选择与行为模型构建、评估消费价值、预测重复购买行为概率、提高商业决策的精准性与可行性.本研究采用阿里云天池大数据竞赛“天猫复购预测”所提供的“双十一”电商购物节关联数据集中约42万电商平台用户产生的5 500万条行为数据,基于促销活动情境完成特征构造,实现有监督分类学习.本研究实现了XGBoost算法的参数优化与数据特征值处理过程优化,完成了促销活动后6个月内电商用户重复购买行为的预测模型演算.结果表明:优化后的XGBoost算法能够比较精准地预测电商用户重复购买行为、评估在线用户潜在购买价值、实现精准营销以及真正促进促销活动的长期投资回报率提高.  相似文献   

5.
基于交通出行行为的郑焦城际公交客流预测   总被引:1,自引:0,他引:1  
通过统计分析郑焦城际公交乘客的个人属性和出行信息,选择灰色模型对客流进行建模、预测和精度检验,得到模型的平均相对误差为3.98%,精度为96.02%,较好地满足了精度要求。该研究为郑焦城际公交的组织优化提供了理论依据和技术支持。  相似文献   

6.
给出F-规律预测,F-规律预测的规律挖掘概念,提出F-规律预测的规律挖掘定理与F-规律预测的规律挖掘原理.F-规律预测的规律挖掘是预测系统中未知规律的一个新的研究方向.  相似文献   

7.
给出F-规律预测,F-规律预测的规律挖掘概念,提出F-规律预测的规律挖掘定理与F-规律预测的规律挖掘原理。F-规律预测的规律挖掘是预测系统中未知规律的一个新的研究方向。  相似文献   

8.
为了获得更高的短期负荷预测精度,有必要充分考虑负荷变化趋势与区域整体用电行为模式之间的关联,提出一种特征空间闭操作驱动的短期电力负荷预测方法。在综合模型的基础上,首先利用特征提取模型将历史用电负荷分解成多个分量作为刻画区域用电行为的特征;然后使用特征选择模型对用电行为特征进行选择,减少冗余或无效特征的干扰,优化预测模型;最后将选择的特征子集作为预测模型的输入特征从而进一步估计出各时段负荷的分布。结果表明采用本方法预测精度更高。  相似文献   

9.
网络学习已经成为互联网+时代的重要学习形式.为了提高网络学习效果,提供个性化的学习服务,对网络学习行为进行深入分析尤为重要.本文提出了人际交互、任务交互、内容交互和系统交互四个维度的网络学习行为模型,构建了基于交互的网络学习行为特征,对网络学习效果进行评价.以某网络课程学习者的网络学习行为数据为研究对象,通过分析网络学...  相似文献   

10.
11.
随着各种手持无线设备及传感器的普及,大量的具有时间和空间属性的轨迹数据在不间断地产生.这些不同来源的轨迹数据记录了个体在时间和空间上的活动,从微观和宏观揭示出个人和团体的活动规律,对研究人群行为及城市管理,特别是城市公共安全管理方面,具有重要的意义.以公共安全管理为主要目标,分4个方面调研了相关的研究工作,并分别给出了笔者的研究进展.使用了2类比较有代表性的数据,第1类是智能手机的时间、空间轨迹数据;第2类是城市公共交通卡的换乘数据.第1类是从“点”上分析挖掘个体或者群体的活动规律,而第2类数据则是从“线”上发现人群的聚散规律.基于第1类数据,针对“个体的发现”介绍了相关工作;对于第2类数据,分别从短时和突发2个方面,发现具有潜在危害性的事件,从而向有关部门提供预测和预警,防范该区域可能出现的公共安全事件.比较了各类模型包括经典的时序数学模型ARIMA(autoregressive integrated moving average model)和SARIMA(seasonal autoregressive integrated moving average)、机器学习和神经网络模型SVR(support vector re-gression)、NN(neural networks)、和LSTM(long short-term memorg),发现笔者的模型在短时客流预测方面可以最多提高27.78%,突发客流预测精度可以最高提高到14.68倍.  相似文献   

12.
数据挖掘技术综述   总被引:6,自引:1,他引:6  
对数据挖掘技术进行了综述,阐述了数据挖掘产生的背景、定义和任务,论述了数据挖掘的技术和算法,介绍了目前数据挖掘的应用状况及指出了数据挖掘的未来研究方向。  相似文献   

13.
Feature selection is the pretreatment of data mining. Heuristic search algorithms are often used for this subject. Many heuristic search algorithms are based on discernibility matrices, which only consider the difference in information system. Because the similar characteristics are not revealed in discernibility matrix, the result may not be the simplest rules. Although differencesimilitude(DS) methods take both of the difference and the similitude into account, the existing search strategy will cause some important features to be ignored. An improved DS based algorithm is proposed to solve this problem in this paper. An attribute rank function, which considers both of the difference and similitude in feature selection, is defined in the improved algorithm. Experiments show that it is an effective algorithm, especially for large-scale databases. The time complexity of the algorithm is O(| C |^2|U |^2).  相似文献   

14.
为了探究学生在线学习情况与学习效果之间的关系,采用数据标注的方式解决学生学习行为表示的问题.以S大学在线教学平台数据为研究对象,通过数据挖掘技术探寻学生在线学习行为与学习效果之间的关系.对比多种机器学习算法后,选定随机森林算法作为学习效果预测模型的基本算法.研究发现:最能影响学习效果的因素是文档学习总时长,最终构建的学习效果预测模型对整体数据集的分类准确率达到84.69%.  相似文献   

15.
为了给乘坐公交出行的人们提供准确且有效率的最优乘车路线,在GIS矢量数据结构的基础之上,对公交数据的模型从其公交网空间位置以及关系网方面进行了分析和研究。对常用的公交规划软件的公交模型数据库进行分析,并对基于GIS矢量数据结构的公交数据模型空间数据采集方式进行了改进,以达到最小换乘次数和最小途经站数。该模型能够实现公交模型数据库的快速创建,且维护效率高,为我国公交网络系统模块的反馈机制提供了多种规划方案和技术支持。  相似文献   

16.
从安钢电极控制的实际应用出发,应用数据挖掘技术建立了电极预测模型并应用于电极控制系统的参数整定.首先介绍了建立电极预测模型的数据挖掘过程;然后在数据挖掘算法中提出了一种新的变结构遗传Elman网络方法,该算法用改进的混合遗传算法对网络结构和权值及自反馈增益同步动态寻优.将基于BP算法的Elman网络和本文提出的变结构遗传Elman网络都应用于安钢交流电弧炉的电极预测模型中进行比较.通过基于安钢现场数据的计算机仿真实验表明:采用变结构遗传Elman网络的数据挖掘算法比BP算法具有更好的动态性能、更快的逼近速度和更高的精度.在此基础上,把建立的模型应用于安钢电极控制系统的参数整定,取得了良好的控制效果.  相似文献   

17.
会计报表的粉饰对于社会和投资者有很大的危害。现在的会计报表粉饰识别技术比较复杂且对分析人员要求较高,数据挖掘技术能较好地对数据进行分析。通过一个预测书法的例子说明应用数据挖掘去识别粉饰是可行的。  相似文献   

18.
数据挖掘技术及其所面临的问题   总被引:4,自引:0,他引:4  
数据库系统、数据仓库和WWW已经成为信息处理系统的主流。海量数据的处理问题使知识发现和数据挖掘 (DataMining)成为目前网络数据库研究、开发和应用最活跃的分支之一。数据挖掘是一个多学科交叉领域 ,被认为是信息产业 2 1世纪最有前途的学科。本文主要介绍了数据挖掘有关概念及其发展 ,并对数据挖掘面临的相关问题进行了研究与探讨  相似文献   

19.
数据挖掘或数据分析在生物医学中与其他调查领域不同,因为在生物医学领域这些数据很复杂,他们资源不同,且每一个医师对同一个诊断记录都有他们自己的解释.分析医疗数据的特征,研究数据的清洗,目的是为了挖掘有价值的知识.实验显示,所提出的方法比朴素贝叶斯网络模式更有效.  相似文献   

20.
方刚  梁向阳  黄浩 《科学技术与工程》2020,20(15):5997-6003
陕北侏罗纪煤田榆神矿区内煤炭资源丰富,但区内矿井普遍受到顶板水害影响。为了准确预测榆神矿区内矿井工作面涌水量,以曹家滩井田122106首采工作面为例,首先分析其导水裂隙带发育高度,判断其2~(-2)号煤回采后上覆含水层的波及情况,而后确定工作面顶板的主要充水含水层,再采用5种方法进行涌水量预测,最后进行对比分析确定涌水量预测值。结果表明:采用裂采比27倍作为导水裂隙带发育高度计算参考,工作面2~(-2)号煤回采高度6 m,导水裂隙带发育高度为162 m,波及上覆主要含水层为侏罗系延安组含水层和直罗组含水层,部分区域波及的风化基岩含水层。采用的5种方法计算工作面正常涌水量分别为404、570、617、464、589 m~3/h;最大涌水量取正常涌水量的1.2倍系数进行计算。通过对比分析各方法的适用条件,确定比拟法的计算值最能够接近矿井生产实际,即曹家滩井田122106首采工作面正常涌水量为464 m~3/h,最大涌水量为557 m~3/h。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号