首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 31 毫秒
1.
针对入侵检测的代价敏感主动学习算法   总被引:1,自引:2,他引:1  
入侵检测系统通过提供可能由恶意攻击导致的告警信息来保护计算机系统.为了能够利用历史数据自动提升入侵检测的性能,机器学习方法被引入入侵检测.但是,高质量训练数据的获取往往需要繁重的劳动或代价昂贵的监控过程.同时,不同类型的误分类导致的代价也是不一样的,入侵检测需要使误分类代价最小.针对这两种需要综合考虑的问题,提出一种基于代价敏感主动学习的入侵检测分类器构造方法ACS.该方法结合代价敏感学习和主动学习方法,其目标为减少学习代价敏感分类器的标注次数,使代价敏感分类器的误分类代价最小.该方法在主动学习的学习引擎中使用代价敏感学习算法替代传统的错误最小学习算法,同时在采样引擎中使用最大误分类代价的采样标准.ACS方法在主动学习中版本空间的构造、更新过程都针对代价敏感环境作了对应的改进,使该算法能够以较高的收敛速度收敛到误分类代价最小的目标函数.在入侵检测数据集KDDCUP99上的的实验表明,ACS方法能够有效地减少学习代价敏感分类器的标注次数.  相似文献   

2.
引入图的误分类代价矩阵,选取以最小误分类代价为目标的加权子图作为图样本的特征属性,建立起图的决策树桩分类器,进行集成学习,得到一个对新图进行分类的判别函数.在生成候选子图时,利用子图的超图增益值具有上界的性质来裁剪增益值比较小的候选子图,从而减少候选子图数量,提高算法效率.实验结果表明,所提算法比其他图分类算法的误分类代价更小.  相似文献   

3.
代价敏感学习是数据挖掘和机器学习领域的重要课题.已有的研究方法多数针对单目标进行优化,并不适用于多目标代价敏感问题的解决.因此通过分析基于粗糙集领域的单目标代价敏感属性约简问题,定义了多目标代价敏感属性约简问题,并设计了一种简单高效的算法.在4个UCI数据集上的实验结果表明,该算法能获得令人满意的帕累托最优解集,以辅助用户进行方案的选择.  相似文献   

4.
代价敏感属性选择在数据挖掘和机器学习中起着关键性作用,代价敏感属性选择问题是经典属性选择问题的自然扩展,已成为越来越多学者的研究热点之一.首先给出多代价下代价敏感属性选择问题的数学模型,然后介绍现有的有代表性的四种代价敏感属性选择算法,最后在四个UCI数据集上进行实验,对四种代价敏感属性选择算法的效果和效率进行比较分析.  相似文献   

5.
代价敏感学习算法的目的是最小化各种代价总和,与其他学习算法一样,它必须面对过度拟合这个挑战性问题,即分类器可以较好地拟合训练数据,但对测试或实际数据的效果较差.针对代价敏感学习的这些缺点,提出两个克服过度拟合的策略.第一个滤波技术策略针对TCSDT分类建立,滤波后的概率估计值被用于对每个分离属性的潜在误分类代价计算,并延缓潜在大误分类代价的分离属性的优先选择,最后,采用交叉验证方法决定m的值.第二个策略与基于标准错误的Laplace剪枝方法不同,阈值剪枝采用一个预先定义的阈值集合(跟代价有关)来确定决策树的一个叶节点是否被剪除.这两策略可独立或联合用于避免TCSDT分类的数据过度拟合.实验表明,所提出的两算法不但在代价敏感学习中有优势,在非代价敏感学习也具有优势,可以有效地减弱过度拟合,有很强的健壮性,UCI数据集实验结果显示算法的拟合能力平均优于存在方法10%以上.  相似文献   

6.
在基于位置的社交网络中,用户签到矩阵极其稀疏,采用排序学习技术进行兴趣点推荐是目前的热门研究方向.针对基于排序学习的兴趣点推荐模型存在精度不高、推荐列表忽略兴趣点的位置等问题,提出一种基于ListMLE的兴趣点推荐算法.基于推荐列表中兴趣点位置的关注度差异,将改进ListMLE算法应用到兴趣点推荐中;用户社交关系影响融...  相似文献   

7.
在数据流分类学习过程中,类不平衡和概念漂移是两大挑战问题.在分析传统特征选择算法和代价敏感学习方法的基础上,将代价敏感学习算法的思想引入特征选择算法中,设计并实现了一种基于代价敏感的Relief F剪枝的数据流分类算法,不仅能删除冗余的特征,而且适应动态变化的数据流环境.与经典的算法进行分析比较,结果表明所提算法可显著提升分类效果.  相似文献   

8.
传统属性约简的目标是在决策表中的所有条件属性中,选择一组分类代价最小的约简,算法构建了测试代价最小的约简.以往的测试代价约简算法查找成功率不够理想,性能不稳定,提出了一种改进的测试代价约简算法.通过运行2个UCI数据集实验,证明算法是有效的,并为提高测试代价约简算法性能提供了新途径.  相似文献   

9.
针对样本集中的类不平衡性和样本标注代价昂贵问题,提出基于不确定性采样的自训练代价敏感支持向量机.不确定性采样通过支持向量数据描述评价未标注样本的不确定性,对不确定性高的未标注样本进行标注,同时利用自训练方法训练代价敏感支持向量,代价敏感支持向量机利用代价参数和核参数对未标注样本进行预测.实验结果表明:该算法能有效地降低平均期望误分类代价,减少样本集中样本需要标注次数.  相似文献   

10.
基于基因表达式编程的代价敏感分类算法   总被引:2,自引:1,他引:2  
针对传统分类算法在稀有类上的分类效果不佳,通过引进代价矩阵,改进了基因表达式编程的适应度函数,提出了一种基于基因表达式编程的代价敏感分类 (CSC-GEP:Cost-Sensitive Classification-Gene Expression Programming) 算法,并在UCI数据集上对该算法进行了实验。实验结果表明,CSC-GEP的召回率、精度和F-度量值较C4.5分类器分别提高了7.07%,2.89%,5.12%,证明了CSC-GEP是一种有效的代价敏感分类算法。  相似文献   

11.
随机森林在分类不平衡数据时,容易偏向多数类而忽略少数类,可以将代价敏感用于分类器的训练,但在传统代价敏感随机森林算法中,代价函数没有考虑样本集实际分布与特征权重,且在随机森林投票阶段,没有考虑基分类器的性能差异。本文提出一种改进的代价敏感随机森林算法ICSRF,该算法首先根据不平衡数据集的实际分布构造代价函数,并将权重距离引入代价函数,然后根据基分类器的性能采取权重投票,提高分类准确率。实验结果表明,ICSRF算法能有效提高少数类的分类性能,可以较好的处理不平衡数据。  相似文献   

12.
针对数据实际分布与假设不匹配时半监督学习算法难以改善分类器性能的问题,该文提出一种最大化样本可分性半监督Boosting算法,通过引入"高密度区域局部散度最小、样本空间全局散度最大"准则来学习未标注的样本。该准则使用两种半监督假设(聚类假设和流形假设),减少了因半监督假设与数据不匹配造成的准确率下降问题。实验结果表明,该文算法有效提高了Boosting算法在符合聚类假设数据集和符合流形假设数据集上的准确性,提高了分类器噪声数据的稳定性。  相似文献   

13.
针对传统核主元分析没有考虑误分类代价的差别、对故障工况不敏感等问题,提出代价敏感核主元分析方法.该方法将代价敏感机制引入核主元分析,以误分类代价最小化为目标,设计最佳阈值调整方法获取最佳阈值,并采用混沌粒子群算法对核参数进行优化,最后利用SPE(squared prediction error)统计量诊断新样本类别.研究结果表明:该方法能有效地降低误分类代价,具有故障敏感性和诊断准确率高以及泛化能力强等特点.  相似文献   

14.
利用FOIL(一阶规则学习)算法提取文档对应的一阶规则,并用之于Web中文文档的分类.同时,对FOIL分类器进行改进,如:控制每个类别的规则数量;对规则前提进行剪枝;对无法识别的文档生成缺省规则;充分利用Web文档的半结构性等.仿真实验结果表明,本文所作的改进使分类器的各项性能均得到了很大程度的提高.  相似文献   

15.
为了探索多标签数据集中每个标签所具有的特定特征,针对标签特定特征进行有效的利用,提出基于聚类提升树的多标签学习方法(multi-label leaning based on boosting clustering trees,MLL-BCT).建立MLL-BCT整体框架,通过引入聚类特征树来挖掘数据样本之间的相关性,以...  相似文献   

16.
针对在线Boosting由于提前设定弱分类器个数导致分类器的分类复杂度受到限制的缺陷,提出了一种新的具有动态级联结构的在线Boosting算法.该算法不但具有一般级联结构的特点,而且能根据输入样本分类的难度来实时地调整级联结构的层数,从而使得目标检测器在检测速度和检测精度方面达到很好的平衡.与一般的方法不同,该算法并没有记录一段短暂的历史样本片段来确定弱分类器的阈值,而是把每一个弱分类器的输出值视为一个随机变量,从而进一步估计它的密度函数.然后以迭代的方式估计出整个强分类器的密度函数,进而构建出在线Boosting的动态级联结构.实验结果表明:与原始的在线Boosting算法相比,该算法大大提高了目标检测的速度和精度.  相似文献   

17.
为了确定多标签分类器链方法的链序以及挖掘出高阶标签关联性,提出了一种基于梯度提升的多标签分类器链方法.给出了GB C C整体框架,通过一种预剪枝策略对单一标签进行梯度提升,在此过程中利用标签置信度和误差评价分数确定最佳链序,并在各个标签间进行标签传递和特征传递,以挖掘高阶标签关联性.将所提出方法与4种分类器链方法(CC、ECC、OCC、EOCC)以及4种多标签分类方法(BR、HOMER、MLKNN、CLR)在bibtex、Corel5 k等12个多标签数据集上进行对比试验.结果表明:新方法在各个评价指标(micro-F1、macro-F1、Hamming loss、One-error)下不仅能够有效提升预测性能,而且能够保持分类器链方法的简单灵活性.  相似文献   

18.
在现实生活中很多应用都包含了对不平衡数据集的分类.由于不平衡数据集中多数类与稀有类的数量相差较大,所以大多数分类算法都不能够很好地对稀有类样本进行分类,而通常稀有类才是我们首要关心的,这就给不平衡数据的分类提出了挑战,为了更好地处理不平衡数据集的分类问题,本文提出了一种以基分类器的ROC曲线下面积(AUC面积)为分类权重的AUCBoost分类算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号