首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
Random Forest作为一种常见的机器学习算法,不仅具备较高的分类回归性能,而且快速高效.传统的Random Forest算法并未在决策树的生成和选择上做深入研究,在本文中笔者提出一种降序去冗的寻优方式对机器学习中监督学习算法Random Forest进行改进,在保证准确率的同时减少随机森林的冗余度,并应用于Android系统的恶意软件检测.经过五折交叉验证法验证,改进的Random Forest算法能够在较低的冗余度下保证较高的准确率,同时改进的算法准确率在与同条件下的原算法的准确率以及OOB模型下的准确率相差在1%以内,在与单模型分类算法KNN和集成式学习算法Adaboost M1的对比试验中改进的Random Forest算法要优于以上两者.  相似文献   

2.
为解决基于单节点架构的传统分类算法存在的时间效率差、分类准确率低等问题,提出了一种基于并行Adaboost-BP神经网络的海量图像分类方法.将BP神经网络作为弱分类器,由Adaboost算法组合15个BP神经网络的输出,构建了强分类器;充分利用了Hadoop平台下Map Reduce并行编程模型,提出了海量图像的自动分类模型,设计了并行Adaboost-BP神经网络算法的Map和Reduce任务.多组实验表明,相对于传统的AdaboostBP神经网络算法,提出的算法在Pascal VOC2007数据集和Caltech256数据集上的平均分类准确率分别提高了14.5%和26.0%,而且算法运行耗时少,系统加速比随集群节点个数增加而增加,在图像规模增加到20 000时,加速比几乎呈线性增长趋势.实验结果充分证明,提出的方法适合海量图像的自动分类和预测.  相似文献   

3.
针对支持向量机解决多分类问题时二分类向多分类扩展过程中的效率降低和数据集倾斜问题,提出了一种基于三元矩阵和层次分析的多分类模型的构造方法,优化支持向量机的多分类效果和效率,弥补1vs1、ECOC等主流算法的不足。该模型通过建立一种简单有效的获取样本集线性可分性构造分类器,从而减少支持向量机在处理多分类时的运算复杂程度。采用了UCI标准数据库中的Iris,Breast Tissue和Statlog等数据集对模型进行训练测试,测试结果表明所提出模型是有效的,尤其在大量数据下多分类的有效性。 更多还原  相似文献   

4.
针对传统半监督自训练方法在学习朴素贝叶斯分类器过程中容易误标记无标记样本,且整个过程未能利用到训练样本的空间结构信息,导致正确率不高的问题,提出了一种基于加权K最近邻改进朴素贝叶斯自训练算法。该算法利用加权K最近邻算法计算出无标记样本的隶属度,通过隶属度选出与已标记样本空间结构相近的样本,使得朴素贝叶斯分类器在一个较好的空间结构上对未标记样本进行分类,充分地利用样本的空间结构信息,从而降低了自训练过程中的迭代错误。在UCI和Kaggle数据集上的对比实验结果表明,该方法的性能相对于传统半监督自训练算法有所改善。  相似文献   

5.
针对传统入侵检测方法在高维海量数据且类别分布不均衡的环境下检测性能较差的问题,提出一种流量异常检测方法SSAE-IWELM-AdaBoost,该方法基于堆叠稀疏自编码网络(stacked spare auto encoder,SSAE)并融合改进加权极限学习机(weighted extreme learning machine,WELM)。该方法首先使用堆叠稀疏自编码网络直接从原始流量数据中自动学习并提取特征,获取原始数据的低维抽象表示,然后以WELM作为集成算法(AdaBoost)的基础分类器,利用修改的训练样本权值分配规则和基分类器权值更新公式迭代训练基分类器,通过加权投票表决的方法得到最优强分类器完成网络攻击流量的识别。在UNSW-NB15数据集上进行仿真实验,实验结果表明,SSAE-IWELM-AdaBoost算法可以提高整体的检测精度以及小样本攻击的检测率,缩短分类器的训练时间,能较好地满足大规模网络环境下原始流量数据实时检测,对不均衡流量数据识别也具有较好的表现。  相似文献   

6.
基于SVM土壤重金属污染评价的训练数据集构建   总被引:1,自引:0,他引:1  
支持向量机(support vector machine,SVM)用于土壤重金属污染评价时,其训练数据集的构建对模型准确性影响重大。本文对依据土壤环境质量国家标准生成数据集的方法(国标法)进行改进,提出实际测量数据集生成方法(实测法),并在实测法样本中添加国标法样本扩大训练数据集,进一步提高模型分类准确率。结果表明:对同一组实测样本进行分类,国标法模型准确率(53. 33%)低于实测法模型准确率(75. 56%);扩大后的数据集训练所得模型与实测法模型相比,分类60个实测样本时,准确率由88. 33%提高至98. 33%,分类45个实测样本时,准确率由75. 56%提高至82. 22%。  相似文献   

7.
针对已有知识树知识热点不突出、知识分类不准确以及结构不断演化等问题,本文面向维基百科的中文数据库"服务计算"领域密集型数据,提出了扩展的中文分词算法,抽取、分类出多种主题知识及其结构化信息,结合服务计算领域文档提出基于LDA改进的DKHM(文档-主题-热点)模型,使用Gibbs抽样算法对数据集采样,并消除原词条歧义分类,以建立演化知识树.实验结果表明:基于DKHM的聚类准确度高于一般的贝叶斯聚类,通过聚类发现的热点与真实热点的匹配度达60%以上,从而验证了演化知识树比维基百科原有知识树结构更合理,热点趋势效果更明显.  相似文献   

8.
现阶段高频心电图(high-frequency electrocardiogram,HFECG)分类算法多为心梗(myocardial infarction,MI)与非心梗的二类分类或心梗类别分类算法,无法在心梗早期的心肌缺血阶段发现病例。基于此,本文提出了一种基于高频心电图的缺血型心脏疾病分类算法。该算法选取并改进了6个高频成分参数作为特征,使用XGBoost模型对样本进行分类。相较于传统算法,该算法增加了对缺血型异常(ischemic,ISC)病例的分类,可以及早发现心梗潜在病例。此外,本文对高频成分参数中幅值下降区域的求解过程与形态学指标进行了改进,提高了算法性能。采用本文算法在PTB-XL数据集上进行了实验,并利用临床数据进行了验证。实验结果表明,本文采用的高频心电图特征对于心肌缺血异常具有较强的表征能力,针对PTB-XL数据集,对四分类类别:正常(NORM)、其他异常(ABNORM)、ISC和MI的识别准确率依次为83.9%,81.7%,88.2%和93.9%。该算法可以有效挖掘处于心梗早期心肌缺血阶段的病例。  相似文献   

9.
尽早发现高压电缆局部放电信号类型并采取相应措施,对于有效避免绝缘系统遭受破坏至关重要。针对高压电缆中4类常见的典型缺陷产生的局部放电信号,本文提出一种基于卷积神经网络的高压电缆局部放电信号分类方法。首先构建缺陷模型,采集4类缺陷的局部放电信号作为样本,并用电压幅值-相位谱图作为输入数据集;然后利用多层卷积核进行特征提取,多分类器进行分类回归;最终得到训练完成的卷积神经网络。比较而言,基于反向传播(back propagation,BP)神经网络和自编码神经网络的分类方法分类效果不稳定,整体准确率较差,本文方法的特征提取能力更强,对每一类信号的分类效果都较好,具有更广阔的应用前景。  相似文献   

10.
基于粗糙集相容关系给出了一个模式分类算法。先通过感知器神经网络训练属性相容权值和相容阈值,再由相容关系确定每个样本的上下近似,通过引入一个用于决策的粗糙隶属函数,给出了分类算法。最后,对IR IS数据集的实验结果表明本算法是有效的。  相似文献   

11.
交互分类是解决数据复杂分类问题的主要手段之一。在现有的大多交互分类系统中,用户能准确识别数据类别,但在有些分类场景中,类别之间的顺序关系更容易被识别,为此,提出一种排序支持的交互数据分类算法。为提升交互分类精度,引入数据的顺序信息,为降低标记难度,提出候选样本推荐策略。另外,提出一种评估分类算法性能的可视化方法,用包含基本车况、交通违法记录、交通事故记录等信息的车辆数据集进行实验验证,将相关车辆分为高危车辆、中危车辆、低危车辆3类,算法的分类结果模型一致度达近98%,验证了方法的有效性。  相似文献   

12.
针对传统机器学习方法对植物叶片图像分类识别率不高的问题,探讨了基于深度稀疏自编码网络(Deep Sparse Autoencoder Network,DSAN)的植物叶片分类研究。自动编码器通过编码和解码重构输入数据,对植物叶片进行分层特征学习,在自动编码器上添加稀疏限制,对隐含层神经元进行压缩,从而学习到更高层的隐含特征用于分类,解决了因选取的特征表达不足导致网络模型分类性能不佳的问题。实验采用公开的植物叶片图像数据库MalayaKew(MK)作为研究对象,该数据集包含44类植物。将预处理之后的叶片图像直接作为输入数据,通过DSAN学习到叶片的高层特征,结合Softmax分类器用于分类。实验结果表明,该算法能够有效提高植物叶片图像的分类精度,在植物分类领域具有一定的应用价值。  相似文献   

13.
隐写分析盲检测存在着检测模型的检测准确性和通用性难以兼顾的问题.本文提出一种用于隐写分析的快速支持向量分类算法FC-SS2LM(fast classification for small sphere with two large margins),通过构造最小超球体和双边最大间隔隐写分析模型,使检测模型既能准确构造分类边界又能考虑不同隐写样本的分布特点,达到了兼顾检测准确性和通用性的目的.在BOSSBase标准图像库上对提出的隐写分析盲检测模型进行验证,实验结果表明,该方法在一定程度上克服了传统隐写分析模型通用性差的缺点,同时提高了实际应用中训练数据样本不平衡情况下的检测准确率.即使在实际应用中训练集样本过大、支持向量较多的情况下,采用该方法计算也可以减小算法复杂度,提高泛化能力和分类速度.  相似文献   

14.
人脸微表情具有持续时间短,运动幅度小,只发生在面部局部区域的特点,给微表情的准确识别带来了极大的挑战。针对上述问题,提出一种基于持续时空注意力网络(Continuous Spatiotemporal Attention Network, CSTN)的人脸微表情识别算法。该算法由主、副两个通道组成,主通道为持续时空注意力模块,副通道为位置校准模块。首先主通道进行离散采样,等间隔抽取原始视频帧组成一个新的视频序列,利用帧间差分法提取各帧之间的运动差异,再将其输入到持续时空网络,提取面部肌肉运动的时空特征;其次利用副通道提取的面部位置信息对主通道信息进行位置校准,最后将融合信息输入到Softmax分类器对微表情进行分类。实验表明在3个公开微表情数据集CASMEⅡ,SAMM,MMEW上该算法识别的平均准确度分别达到了89.96%,86.73%,89.76%,优于现有其他算法。  相似文献   

15.
基于同一家族恶意软件在行为上的相似性特征,提出了一种基于行为的Android恶意软件家族聚类方法.该方法构建了软件行为刻画特征集合,通过定制ROM的方式来构建行为捕获机制并采集恶意软件的行为日志,基于行为日志提炼恶意软件特征集,使用DBSCAN(density-based spatial clustering of applications with noise)聚类算法进行家族聚类.通过对大量已经人工分类的恶意软件进行评估,实验结果表明,在最优情况下,本方法在聚类准确率上达到了91.3%,在测试样本识别预测上正确率达到了82.3%.  相似文献   

16.
针对歧视性言论的鉴别,提出了一种融合双向门控循环单元(BIGRU,bidirectional gated recurrent unit)和多元卷积神经网络(MCNN,multi-convolution neural network)的BGM-CNN模型。模型先采用BIGRU结构进行时序特征提取,再经过一维多元卷积神经网络进行降维池化,最后结合多组特征输出进行分类。实验结果表明,BGM-CNN模型比现有的单一模型和CNN-LSTM(long short-term memory)等模型分类效果更好,该模型在五分类验证数据集上分类的F1值为0. 673 3,在两个歧视性言论二分类数据集上的F1值分别为0. 837 3和0. 815 6。  相似文献   

17.
采用基于识别的分割方法进行手写数字串分割.在识别的过程中,运用反例样本估计分类器参数,实验数据表明,这种运用反例样本训练的分类器与没有经过反例样本训练的分类器相比,将提高拒识率到19%左右,从而保证了较高的识别率,验证了只有经过反例训练的分类器的输出结果才是可信赖的.  相似文献   

18.
脑电信号的时间和频率间隔选择对脑机接口的分类性能具有重要的影响。针对多类运动想象脑机接口系统,提出一个新的基于时间段和频带联合选择的分类算法。该算法首先使用滑动窗将运动想象产生的脑电信号在时域和频域进行分割,然后在每一对截取的时间段和频段,使用多类共空域模式算法提取脑电特征信号,最后使用k-最近邻算法对特征信号进行分类。交叉验证的分类识别率作为最优时间段和频带的选择标准。使用一个四类数据集对这个分类算法的性能进行了测试。与现有的3个典型算法比较,这个算法取得了最高的平均分类正确率,证实了这个基于时间段和频带联合选择的分类算法的有效性。  相似文献   

19.
鉴于聚类分析是机器学习和数据挖掘领域的一项重要技术, 并且与监督学习不同的是聚类分析中没有类别或标签的指导信息, 所以如何选择合适的聚类个数(即模型选择)一直是聚类分析中的难点. 由此提出了一种基于Dirichlet过程混合模型的聚类算法, 并用collapsed Gibbs采样算法对混合模型的参数进行估计. 新算法基于非参数贝叶斯模型的框架, 能够在不断的采样过程中优化模型参数并形成合适的聚类个数. 在人工合成数据集和真实数据集上的聚类实验结果表明: 基于Dirichlet过程混合模型的聚类算法不但能够自动确定聚类个数, 而且具有较强灵活性和鲁棒性.  相似文献   

20.
针对当前入侵监测系统存在的自适应能力较差、扩展性差的问题,基于面向混合类型数据的快速启发式聚类算法FHCAM和属性约束的模糊规则挖掘算法ACFMAR,提出了一种采用数据挖掘技术的自适应入侵检测系统DMAIDS.该系统通过划分聚类的方法划分出异常入侵记录;模糊关联规则的方法提取入侵模式.通过对1999年举行的数据挖掘大赛所使用的10%子集进行实验,结果表明该系统平均检测率和平均误检率比大赛获得冠军检测方法准确率提高了近2倍,检测率从数据子集1的65.25%自适应提高到数据子集9的85.7%能自适应的检测各种攻击,表明该系统具有很好的应用前景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号