首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
目前识别虚假评论的方法主要基于评论内容的文本特征和评论者的行为特征,然而评论文本与评论者行为容易被伪造和模仿,且这两类方法只能对虚假评论逐个识别,本文考虑了虚假评论的网络结构特征,通过分析评论者的网络行为及评论者节点间的网络结构特征定义相邻节点多样性与自相似性,利用累积分布函数估计其概率并合成网络行为得分,以得分高的可疑产品为种子建立2-hop子图,筛选子图中高度相似的虚假评论候选群组,利用GroupStrainer、HDBSCAN等算法对其进行聚类合并,以发现隐藏的虚假评论群组。以亚马逊四类最畅销的产品数据集为样本进行实证分析的结果表明,文中提出的方法能够有效识别隐藏较深的大规模虚假评论群组,综合群组内容的统计特征分析发现,虚假评论群组对目标产品的攻击模式存在产品类别差异,虚假评论群组比真实评论者对目标产品具有更强的集中度,但同时也会利用其它非目标产品对自身进行伪装以弱化其可疑性。  相似文献   

2.
张文  王强  唐子旭  秦广杰  李健 《运筹与管理》2022,31(11):167-173
机器学习相关技术的发展提升了在线虚假评论识别的准确率,然而现阶段机器学习模型缺少足够量的已标注数据来进行模型训练。本文基于生成式对抗网络(GAN)提出了评论数据集扩充方法GAN-RDE(GAN-Review Dataset Expansion)以解决虚假评论识别中模型训练数据贫乏问题。具体而言,首先将初始评论数据划分为真实评论数据集和虚假评论数据集,使用真实评论数据集和虚假评论数据集分别训练GAN,生成符合真实评论与虚假评论特征分布的向量。然后将GAN训练得到的符合评论特征分布的向量与初始评论数据集的特征词词向量矩阵进行合并,扩充模型训练数据。最后,利用朴素贝叶斯、多层感知机和支持向量机作为基础分类器,对比数据扩充前后虚假评论识别的效果。实验结果表明,使用GAN-RDE方法扩充评论数据集后,机器学习模型对虚假评论识别准确率得到显著提升。  相似文献   

3.
解决不平衡数据分类问题,在现实中有着深远的意义。马田系统利用单一的正常类别构建基准空间和测量基准尺度,并由此建立数据分类模型,十分适合不平衡数据分类问题的处理。本文以传统马田系统方法为基础,结合信噪比及F-value、G-mean等分类精度,建立了基于遗传算法的基准空间优化模型,同时运用Bagging集成化算法,构造了改进马田系统模型算法GBMTS。通过对不同分类方法及相关数据集的实验分析,表明:GBMTS算法较其他分类算法,更能够有效的处理不平衡数据的分类问题。  相似文献   

4.
数据不平衡性是目前数据挖掘面临的主要问题之一.在客户流失预测研究中,数据不平衡的问题影响预测精度,导致准确率低,AUC值变小.传统重采样方法虽然能够解决数据不平衡问题,但会导致有效信息缺失、数据过度拟合等问题,为避免问题发生文中采用SMOTERF法,针对客户流失数据进行平衡后再用分类预测能较大地解决数据不平衡问题,且准确率高,AUC值大,效果较好.近年来服务业对客户流失的关切度越来越高,研究如何在原有的客户信息上去预测未来客户流失状况作出及时的应对措施,减少企业损失有重要意义.在客户流失预测中,对于解决数据的不平衡表现尤为重要.  相似文献   

5.
基于因子分析的区域经济不平衡发展研究   总被引:1,自引:0,他引:1  
以构建的区域经济发展三维评价指标体系,作为GIS(地理信息系统)相应粒度多边形的主要属性,建立空间时态数据库.通过定义的相对发展度函数进行指标规范化后,经标准化并虚拟优、劣样品,利用因子分析将之变换为因子得分。在此基础,提出加权闵可夫斯基距离法三维评价模型,引入方差、聚集度等测度不平衡程度,通过序列快照模型等表达区域经济发展不平衡格局的动态,根据公因子方差、序相关分析等进行因素诊断与调控。方法应用于福建南平市区域经济不平衡发展研究中,实证表明方法方便、有效。  相似文献   

6.
朴素贝叶斯分类器(Naive Bayes,NB)是一种简单而有效的分类器,特别适用于中小规模数据分类.但作为以整体分类正确率为指导的传统分类方法,它在不平衡数据分类中对少数类的分类能力较弱.针对此问题,本文采用属性加权的方法增强朴素贝叶斯对于少数类的分类能力.类依赖属性加权朴素贝叶斯(class-specific at...  相似文献   

7.
在实际应用中,经常遇到数据分类集合中某一类的样本数量明显少于其他类的样本数量的数据不平衡问题.在二分类数据集中,一般称样本数目多的一类数据集合为正类,样本数目少的一类数据集合为负类.为了提高算法在不平衡数据集下的分类性能,提出了首先利用K-means找出负类中心点,再根据SMOTE基本原理,得出新的数据集.通过对比新数据集和原不平衡数据集在不同算法中的分类应用,结果表明本文改进算法的分类效果得到明显提升,最后用两两配对T检验验证算法的有效性.  相似文献   

8.
利用传统支持向量机(SVM)对不平衡数据进行分类时,由于真实的少数类支持向量样本过少且难以被识别,造成了分类时效果不是很理想.针对这一问题,提出了一种基于支持向量机混合采样的不平衡数据分类方法(BSMS).该方法首先对经过支持向量机分类的原始不平衡数据按照所处位置的不同划分为支持向量区(SV),多数类非支持向量区(MNSV)以及少数类非支持向量区(FNSV)三个区域,并对MNSV区和FNSV区的样本做去噪处理;然后对SV区分类错误和部分分类正确且靠近决策边界的少数类样本重复进行过采样处理,直到找到测试结果最优的训练数据集;最后有选择的随机删除MNSV区的部分样本.实验结果表明:方法优于其他采样方法.  相似文献   

9.
基于上海证券市场的交易数据讨论了交易者买卖委托单不平衡的衡量方法及其适用范围,并在此基础上考察买卖委托单不平衡与股票的当期、滞后期收益率及流动性之间关系,实证结果显示滞后一期的股票收益率与当期收益率存在着显著的正相关,当期及滞后一期的买卖委托单不均衡均显著的影响了当前的股票收益率;在正负委托单不平衡交易日的股票平均收益率存在显著差异,正委托单不平衡交易日的股票平均收益率显著小于负委托单不平衡交易日内收益率,交易者在样本考察交易日期间更偏好委托卖单,股票流动性与投资者买卖委托单不平衡正相关。  相似文献   

10.
标准的加权超限学习机在训练不平衡数据集时,只对不同类之间赋予类权值而没有对个体的样本赋予不同的权值,忽视了样本个体的差异.针对这种情况,利用标准的超限学习机估算个体样本的权值,并与类权值结合,提出了一种改进的双重加权超限学习机分类算法,算法能很好地处理分类任务中各类训练数据分布不平衡的情形.实验结果表明,双重加权超限学习机分类算法与单重加权超限学习机、无权超限学习机相比较,在提高分类精度方面取得了较好的效果.  相似文献   

11.
本文首先分析了增量学习过程中支持向量与非支持向量的相互转化问题,而后在此基础上提出了基于超球结构的支持向量机增量学习算法。该算法主要利用超球结构,完成对增量学习中训练样本的选取,进而完成分类器的重构。实验表明,该算法比传统支持向量机增量学习算法具有更高的分类精度。  相似文献   

12.
在垃圾短信用户的识别问题中,参与建模的用户行为消费数据存在极强的相关性,直接使用朴素贝叶斯算法建模准确率极低.为满足朴素贝叶斯算法要求建模属性条件独立的基本假定,利用主成分分析对数据进行处理,从而达到降维和属性独立的双重目的,继而利用朴素贝叶斯算法进行建模.结果表明,基于主成分分析和朴素贝叶斯算法的组合模型效果显著.可见在垃圾短信算法的识别中具有一定的实用价值和现实意义.  相似文献   

13.
杨弦  骆丹  吴江宁 《运筹与管理》2023,32(1):97-102
海量评论数据导致了信息过载,基于消费者的偏好对评论进行个性化排序尤为必要。本文考虑消费者多维偏好,即产品特征偏好、评论情感偏好和评论浏览数量偏好,提出了评论排序的消费者偏好满意度量化方法,将排序问题转化为最大化满意度的优化问题,鉴于问题的复杂度无法精确求解,提出了一个基于改进贪婪算法的近似求解算法。采用美团网酒店的评论数据进行实验,结果显示本文提出的算法与其他相关算法相比有效性显著提高,且具有较高的敏感度。研究结果对消费者提高决策效率,以及电商平台获取消费者偏好、改进评论系统,有着重要的现实指导意义。  相似文献   

14.
基于高斯RBF核支持向量机预测棉花商品期货主力和次主力合约协整关系的价差序列,确定最优SVM参数,并选择合适的开平仓阈值,进行同品种跨期套利.再与多项式核支持向量机套利结果对比,得到在所有开平仓阈值上,基于高斯RBF核支持向量机套利的收益率都明显高于多项式核支持向量机套利的收益率.  相似文献   

15.
商品属性或特征的在线评论对消费者选择商品产生重要影响,现有方法尚未关注商品级别和消费者的有限理性问题。为此,本文提出在线评论中基于前景理论的商品选择方法。首先,描述了依据在线评论的商品选择问题;然后,定义商品关于属性值级别隶属度,进而计算级别正理想点和负理想点;其次,以正理想点和负理想点为参考点,计算各个商品的前景综合级别特征值,据此提出基于二元语义的商品等级评价与选择方法。最后,通过一个商品选择案例说明该方法的有效性和合理性。  相似文献   

16.
基于双向改进余弦相似度的话题发现算法   总被引:1,自引:0,他引:1  
话题发现是网络社交平台上进行热点话题预测的一个重要研究问题。针对已有话题发现算法大多基于传统余弦相似度衡量文本数据间的相似性,无法识别各维度取值成比例变化时数据对象间的差异,文本数据相似度计算结果不准确,影响话题发现正确率的问题,提出基于双向改进余弦相似度的话题发现算法(TABOC),首先从方向和取值两个角度改进余弦相似度,提出双向改进余弦相似度,能够区分各维度取值成比例变化的数据对象,保留传统余弦相似度在方向判别上的优势,提高衡量文本相似度的准确性;进一步定义集合的双向改进余弦特征向量和双向改进余弦特征向量的加法等相关定义定理,舍弃无关信息,直接计算新合并集合的特征向量,减小话题发现过程中的时间和空间消耗;还结合增量聚类框架,高效处理新增数据。采用百度贴吧数据进行实验表明,TABOC算法进行话题发现是有效可行的,算法正确率和时间效率总体上优于其他对比算法。  相似文献   

17.
模糊球壳聚类(FCSS)算法和基于改进型可能性C-均值聚类(IPCM)的球壳聚类(IPCSS)算法都是基于梯度的交错寻优方法,在检测圆或圆弧曲线时容易陷入局部极小值,从而得到错误的检测结果,同时其不能自动识别曲线的条数.针对上述两个缺点,在IPCM的基础上用拟合法计算半径和圆心,很大程度上克服了陷入局部极小值的缺点,同时引入特征间隙的方法,实现了曲线条数的自动识别.大量数值仿真实验和实际数据实验表明,提出的算法对圆或圆弧型曲线具有良好的自适应检测效果.  相似文献   

18.
基于组合预测法的共享单车租赁需求量预测   总被引:1,自引:0,他引:1       下载免费PDF全文
张建同  孙嘉青 《运筹与管理》2021,30(10):146-152
共享单车的租赁需求量预测对于单车企业提升运营效率十分必要,是单车再调度的前提。为了更加准确地预测出共享单车的租赁需求量,本文结合随机森林、XGBoost、GBDT三类数据驱动预测算法的优点,提出了一种基于向量投影法的加权对数平均组合模型。定义了组合模型的优性,非劣性,劣性的概念。并证明了该方法至少是一种非劣性的预测方法。通过将该方法运用于现实问题中,以解决实际单车租赁需求量预测问题。实例研究发现:该方法在单车租赁需求量预测中可以为优性预测模型, 能够对单车再调度起到正向作用。该方法可以为单车租赁需求量预测的相关研究提供一种切实有效的解决方向。  相似文献   

19.
近年来我国淀粉产业迅速发展,给相关企业带来了巨大经济效益的同时,由于其情况复杂,致使相关企业无法正确掌控淀粉价格的走势,也造成了大量的经济损失.因此,寻找一种科学的、高效的淀粉价格预测方法已成为当务之急.将遗传算法(GA)与回归型支持向量机(SVR)相融合,建立了GA-SVR淀粉价格预测模型.对2003-2011年淀粉价格进行仿真预测,结果表明,模型的决定系数和均方误差均优于其它方法,验证了模型的有效性与优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号