首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
在实际应用中,经常遇到数据分类集合中某一类的样本数量明显少于其他类的样本数量的数据不平衡问题.在二分类数据集中,一般称样本数目多的一类数据集合为正类,样本数目少的一类数据集合为负类.为了提高算法在不平衡数据集下的分类性能,提出了首先利用K-means找出负类中心点,再根据SMOTE基本原理,得出新的数据集.通过对比新数据集和原不平衡数据集在不同算法中的分类应用,结果表明本文改进算法的分类效果得到明显提升,最后用两两配对T检验验证算法的有效性.  相似文献   

2.
关于DNA序列分类问题的模型   总被引:4,自引:1,他引:3  
本文提出了一种将人工神经元网络用于 DNA分类的方法 .作者首先应用概率统计的方法对 2 0个已知类别的人工 DNA序列进行特征提取 ,形成 DNA序列的特征向量 ,并将之作为样本输入 BP神经网络进行学习 .作者应用了 MATLAB软件包中的 Neural Network Toolbox(神经网络工具箱 )中的反向传播 ( Backpropagation BP)算法来训练神经网络 .在本文中 ,作者构造了两个三层 BP神经网络 ,将提取的 DNA特征向量集作为样本分别输入这两个网络进行学习 .通过训练后 ,将 2 0个未分类的人工序列样本和 1 82个自然序列样本提取特征形成特征向量并输入两个网络进行分类 .结果表明 :本文中提出的分类方法能够以很高的正确率和精度对 DNA序列进行分类 ,将人工神经元网络用于 DNA序列分类是完全可行的  相似文献   

3.
为解决传统目标检测算法需要人工设定目标特征、使用滑动窗法判断目标可能区域耗时等问题,将基于区域推荐和深度卷积网络用于交通目标检测,直接从原始图像提取特征,免去了人工选取特征的环节;解决了滑动窗口法耗时的问题.首先采用Selective Search方法在源图像上生成大量的候选区域,以这些候选区域作为输入样本,训练深度卷积网络学习算法,自动进行特征提取,对每个候选区提取的特征采用SVM分类器进行分类,最后基于贪婪非极大值抑制方法精修候选框的位置.此算法通过matlab编程分别对单目标、多目标及多类交通目标进行检测实验,证明了所提方法的可行性和有效性.  相似文献   

4.
时间序列分类(TSC)是数据挖掘领域中重要且富有挑战性的问题之一.首先将时间序列数据按照Gramian Angular Summation/Difference Field(GASF/GADF)、Markov Transition Field(MTP)、Recurrence Plot(RP)四种方式编码成图像,然后利用深度残差网络(ResNet)对编码的图像进行分类.为了充分利用四种编码图像的的信息以及提高分类的性能,使用AdaBoost对基分类器进行集成.ResNet在反向传播过程需要保存每一层的激活值,为了减少集成过程的内存消耗,利用可逆残差模块对传统残差模块进行替换.在计算分析阶段,从UCR数据中选取部分数据集进行测试,并将测试结果与当前最优的结果进行对比,实验结果表明所提算法的有效性.  相似文献   

5.
对自回归过程的分类问题,较好的方法是:提取过程的自回归系数或倒谱系数(定义为复倒谱函数的取样值)为特征矢量,然后利用距离比较法来判定待检样本序列是否与参考特征所代表的序列出自同一类别。在这类问题中,以往所用的参考特征无一例外地将所考虑的自回归过程假定为定常型,即真实的自回归系数矢量(或等价地倒谱系数矢量)和模型残差方差为常数,这样就可用以下方式来提取分类所需的参考特征:  相似文献   

6.
针对传统卷积神经网络(CNN)中Sigmod激活函数求导计算量大,提取SAR图像特征效率不高的问题,本文将CNN中的Sigmod激活函数改进为Relu激活函数,并结合极限学习机(ELM)算法,提出了基于CNN-ELM算法的SAR图像识别算法,通过对SAR图像进行分类识别的实验表明,该算法能实现网络的稀疏性,缓解过拟合问题,加快网络的收敛速度,并且具有更高的识别率.  相似文献   

7.
《数理统计与管理》2015,(5):809-820
不平衡数据是指分类问题中目标变量的某一类观测值数量远大于其他类观测值数量的数据。针对处理不平衡数据算法SMOTE及其衍生算法的不足,本文提出一种新的向上采样算法SMUP(Synthetic Minority Using Proximity of Random Forests),通过样本相似度改进SMOTE算法中的距离测量方式,提高了算法的分类精度。实验结果表明,基于SMUP算法的单分类器能有效提升少数类的分类正确率,同时解决了SMOTE对定类型特征变量距离测度不佳的难题;基于SMUP算法的组合分类器分类效果也明显优于SMOTE衍生算法;最重要的是,SMUP将连续型、混合型和定类型这三种特征变量的距离测度整合到一个统一的框架下,为实际应用提供了便利。  相似文献   

8.
在激光超声缺陷检测技术中,不同类型缺陷采样信号的准确分类至关重要.针对激光超声表面波实验采样信号高维小样本的特点,采用了一种有监督学习的Kohonen神经网络(S_Kohonen)自适应分类方法.在S_Kohonen网络自组织学习的过程中,通过改进网络的学习率提高了网络的收敛速度.通过采用一种无需邻域半径判断的自适应权值调整方式来实现竞争层神经元权值不同程度的调整,从而更有效的表征输入样本的分布特征.通过对不同类型缺陷探测样本的多次实验,验证了所述方法具有良好的分类预测效果,多次交叉验证分类正确率均能达到100%.  相似文献   

9.
基于脑电信号非平稳、复杂、信噪比低的特性,使用经验模式分解(EMD)算法对脑电信号进行分解,提取主要IMF分量的特征值,之后使用模糊C-均值(FCM)进行分类,并与现有的几种脑电分类方法做了对比研究.研究结果表明,基于2003年第二届BCI大赛脑电信号库的分类正确率达到78%,对于现有的脑电分类方法有一定的借鉴意义.  相似文献   

10.
遗传模糊聚类算法在图像边缘检测中的应用   总被引:1,自引:0,他引:1  
将一种改进的遗传模糊c-均值聚类(GFGA)算法应用到图像的边缘检测中.我们将灰度图像中的每一个像素点看成是一个数据样本,将该点的灰度值经过Robert算子、Sobel算子和Prewitt算子处理构成它的特性向量,形成具有三维特征的数据集,然后对这个数据集应用遗传模糊聚类算法进行分类,自适应地检测出图像的边缘点,达到提取边缘的目的.实验结果表明,这种混合算法能得到很好的边缘效果,并且得到的结果无需再细化处理,提高了边缘定位的精度.  相似文献   

11.
利用传统支持向量机(SVM)对不平衡数据进行分类时,由于真实的少数类支持向量样本过少且难以被识别,造成了分类时效果不是很理想.针对这一问题,提出了一种基于支持向量机混合采样的不平衡数据分类方法(BSMS).该方法首先对经过支持向量机分类的原始不平衡数据按照所处位置的不同划分为支持向量区(SV),多数类非支持向量区(MNSV)以及少数类非支持向量区(FNSV)三个区域,并对MNSV区和FNSV区的样本做去噪处理;然后对SV区分类错误和部分分类正确且靠近决策边界的少数类样本重复进行过采样处理,直到找到测试结果最优的训练数据集;最后有选择的随机删除MNSV区的部分样本.实验结果表明:方法优于其他采样方法.  相似文献   

12.
针对高校科研水平深度学习网络训练评价中存在评价特征同质化现象,造成评估结果精度不高的问题,提出稀疏交叉熵粗糙集双向受限制深度玻尔兹曼机(DDRBM-DNNS)高校科研能力评估方法.首先,考虑采用受限制玻尔兹曼机(RBM)和稀疏交叉熵惩罚参数对深度学习网络进行改进,实现深度学习网络特征训练同质化现象的削弱;同时,针对输入数据的预处理问题,考虑基于粗糙集的前置预处理方式实现,在维持数据输入信息完整前提下,实现输入样本数据的有效归约,进而实现样本处理量的简化,有利于深度学习网络收敛过程的提速;最后,利用所提算法对高校科研水平进行评价,实验数据显示,所提评价模型具备更高的评估精度和更快运算效率.  相似文献   

13.
考虑到构建二叉树支持向量机时样本的分布情况对分类器推广能力具有较大影响,提出一种改进的二叉树支持向量机层次结构构建方法.以类间样本距离和带权值的类内样本距离与其标准差的比值作为类的分类度.将类间距离大且类内样本平均分布广的类最先分离.利用标准数据集,通过与不同多类分类算法比较,验证了改进的二叉树支持向量机的优越性.对双转子涡喷发动机气路部件进行应用改进的算法进行故障诊断,得到了较好的故障识别率.  相似文献   

14.
支持向量机在近十年成为机器学习的主要学习技术,而且已经成功应用到有监督学习问题中。Fung和Mangasarian利用支持向量机对于既有已标类别样本又有未知类别样本的训练集进行训练,方法主要是利用少量已标明类别的样本进行训练得到一个分类器的同时对于未标明类别的样本进行分类,使得间隔最大化。此优化问题中假定样本是精确的,而在现实生活中,样本通常带有统计误差。因此,考虑样本带有扰动信息的半监督两类分类问题,给出鲁棒半监督v-支持向量分类算法。该算法的参数v易于选择,而数值试验也表明该算法具有良好的稳定性和较好的分类结果。  相似文献   

15.
采用神经网络Elman网络模型对汇率进行预测.处理过程对样本序列进行了分类,并对训练与测试样本进行了残差分析.预测结果表明:该方法对汇率涨落方向的预测准确度达到74.54%,对汇率预测值与实际值之间的偏差略为偏大的情况,并分析了产生误差的原因.  相似文献   

16.
用LDA Boosting算法进行客户流失预测   总被引:2,自引:1,他引:1  
本文提出一种LDA boost(Linear Discriminant Analysis boost)分类方法,该算法能有效利用样本的所有特征,并且能够从高维特征空间里提取并组合优化出最具有判别能力的低维特征,使得样本类间离散度和类内离散度的比值最大,从而不会产生过度学习,大大提高算法效率。该算法有效性在某商业银行的客户流失预测过程的真实数据集中得到了验证。与其他同类算法,如人工神经网络、决策树、支持向量机等运算结果相比,该方法可以显著提高运算精度。同时,LDAboosting与其他boosting算法相比,也具有显著的优越性。  相似文献   

17.
一种改进的遗传k-means聚类算法   总被引:8,自引:0,他引:8  
在经典的k-means聚类算法中,聚类数k必须事先给定,然而在现实中k很难被精确的确定.本文提出了一种改进的遗传k-means聚类算法,并构造了一个用来评价分类程度好坏的适应度函数,该适应度函数考虑的是在提高紧凑度(类内距)和分离度(类间距)的同时使得分类个数尽可能少.最后采用两个人工数据集和三个UCI数据集对k-means聚类算法(KM),遗传聚类算法(GA),遗传k-means聚类算法(GKM)和改进的遗传k-means聚类算法(IGKM)进行比较研究,比较的指标有类间距、类内距和分类正确率.研究证明改进的遗传k-means算法能够自动获取最佳聚类数k并且保持较高的正确率.  相似文献   

18.
模糊C均值算法的改进   总被引:13,自引:0,他引:13  
模糊聚类分析方法具有较强的实用性,但传统的模糊C均值算法对数据集进行分类时有均分的趋势,对于数据集中各类样本数目相差较大的情况,其聚类结果不是很理想.因此,本文对FCM算法进行了改进,使之不但能够达到更好的分类效果,同时也更加适用于样本分类不均衡的聚类问题.文中还结合具体算例进行了聚类分析,得到了理想的分类效果.  相似文献   

19.
针对传统特征选择方法在中文垃圾邮件过滤处理中出现的特征项提取不明确、过滤精度低的问题,提出了一种基于堆叠式降噪自编码器(Stacked Denoising Autoencoder,SDA)的中文垃圾邮件过滤方法.首先,对处理后的语料使用Word2vec工具集中的连续词袋(Continuous Bag-of-Words,CBOW)模型进行训练,得到对应的词向量;接着以词向量作为输入,采用堆叠式降噪自编码器深度网络以无监督学习方式对其进行有效的特征提取;最后,采用改进的Softmax分类器对网络进行有监督微调.该方法在TREC06C数据集上进行测试,将准确率、精确率、召回率、更能衡量二分类效果的f1得分值作为实验评价标准,实验结果表明,相比于贝叶斯模型、KNN分类算法、SVM以及传统的堆叠式降噪自编码器,方法的准确率、精确率、召回率及f1得分值达到了93.5%、94.8%、92%和93.2%,在中文垃圾邮件过滤中拥有更好的二分类效果和健壮性.  相似文献   

20.
针对多观测样本分类问题,提出一种基于Kernel Discriminant CanonicalCorrelation(KDCC)来实现多观测样本分类的模型.该算法首先把原空间样本非线性的投影到高维特征空间,通过KPCA得到核子空间,然后在高维特征空间定义一个使类内核子空间的相关性最大,同时使类间核子空间的相关性最小的KDCC矩阵,通过迭代法训练出最优的KDCC矩阵,把每个核子空间投影到KDCC矩阵上得到转换核子空间,采用典型相关性作为转换核子空间之间的相似性度量,并采用最近邻准则作为多观测样本的分类决策,从而实现多观测样本的分类.在三个数据库上进行了一系列实验,实验结果表明提出的方法对于多观测样本分类具有可行性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号