首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
朴素贝叶斯分类器(Naive Bayes,NB)是一种简单而有效的分类器,特别适用于中小规模数据分类.但作为以整体分类正确率为指导的传统分类方法,它在不平衡数据分类中对少数类的分类能力较弱.针对此问题,本文采用属性加权的方法增强朴素贝叶斯对于少数类的分类能力.类依赖属性加权朴素贝叶斯(class-specific at...  相似文献   

2.
马田系统是一种新的模式识别技术,是将田口式信噪比的试验设计方法的一整套思想应用到模式识别的特征变量选择问题上,并通过构建正常样品的基准空间,应用马氏距离值进行样品类别的识别.探讨了马田系统的基本原理,并应用MTGS模型方法对费希尔关于鸢尾花类型的判别问题进行研究,显示了马田系统方法的良好判别分类效果.  相似文献   

3.
利用传统支持向量机(SVM)对不平衡数据进行分类时,由于真实的少数类支持向量样本过少且难以被识别,造成了分类时效果不是很理想.针对这一问题,提出了一种基于支持向量机混合采样的不平衡数据分类方法(BSMS).该方法首先对经过支持向量机分类的原始不平衡数据按照所处位置的不同划分为支持向量区(SV),多数类非支持向量区(MN...  相似文献   

4.
在实际应用中,经常遇到数据分类集合中某一类的样本数量明显少于其他类的样本数量的数据不平衡问题.在二分类数据集中,一般称样本数目多的一类数据集合为正类,样本数目少的一类数据集合为负类.为了提高算法在不平衡数据集下的分类性能,提出了首先利用K-means找出负类中心点,再根据SMOTE基本原理,得出新的数据集.通过对比新数据集和原不平衡数据集在不同算法中的分类应用,结果表明本文改进算法的分类效果得到明显提升,最后用两两配对T检验验证算法的有效性.  相似文献   

5.
标准的加权超限学习机在训练不平衡数据集时,只对不同类之间赋予类权值而没有对个体的样本赋予不同的权值,忽视了样本个体的差异.针对这种情况,利用标准的超限学习机估算个体样本的权值,并与类权值结合,提出了一种改进的双重加权超限学习机分类算法,算法能很好地处理分类任务中各类训练数据分布不平衡的情形.实验结果表明,双重加权超限学习机分类算法与单重加权超限学习机、无权超限学习机相比较,在提高分类精度方面取得了较好的效果.  相似文献   

6.
建立了引入供给因素的中国对美总量和SITC分类商品出口与进口模型.基于美国官方数据,实证研究发现:供给因素对中国对美总量和SITC分类商品出口与进口的影响存在严重的不对称性,需求因素对中国对美总量和SITC分类商品出口与进口的影响基本对称,汇率对中国对美总量和SITC分类商品出口与进口的影响存在严重的不对称性.  相似文献   

7.
数据不平衡性是目前数据挖掘面临的主要问题之一.在客户流失预测研究中,数据不平衡的问题影响预测精度,导致准确率低,AUC值变小.传统重采样方法虽然能够解决数据不平衡问题,但会导致有效信息缺失、数据过度拟合等问题,为避免问题发生文中采用SMOTERF法,针对客户流失数据进行平衡后再用分类预测能较大地解决数据不平衡问题,且准确率高,AUC值大,效果较好.近年来服务业对客户流失的关切度越来越高,研究如何在原有的客户信息上去预测未来客户流失状况作出及时的应对措施,减少企业损失有重要意义.在客户流失预测中,对于解决数据的不平衡表现尤为重要.  相似文献   

8.
非平衡数据集的支持向量域分类预测模型研究   总被引:1,自引:0,他引:1  
基于非平衡数据集的支持向量域分类模型,提出了一种银行客户个人信用预测方法.首先分析了信用预测的主要方法及其不足,然后研究了支持向量域分类模型及其参数的非负二次规划乘性更新算法,进而提出基于支持向量域分类模型的银行客户个人信用预测方法,最后使用人工数据和实际数据对提出方法与支持向量机预测方法进行对比实验.实验结果表明对于银行客户个人信用预测的非平衡数据分析问题,基于支持向量域模型的分类预测方法更有效.  相似文献   

9.
马田系统是由日本著名质量工程学家田口玄一提出的一种模式识别方法,它将正交试验设计、信噪比与马氏距离进行集成,筛选有效特征变量,对待测群体进行诊断、评价和预测.马田系统利用正交表和信噪比筛选特征变量可能存在不足之处,而粗糙集是处理不完善、不确定数据等不完全信息并能进行属性约简的有效方法,引入粗糙集筛选有效特征变量以改进马田系统.癌细胞的及早发现有助于乳腺癌的早期预防和及时治疗,以乳腺癌细胞的分类检测为背景,选取UCI数据库中600个细胞作为研究样本,使用改进马田系统方法区分正常细胞和乳腺癌细胞,并将其分类效果与经典马田系统相比较.结果表明,基于粗糙集的改进马田系统对乳腺癌细胞的分类正确率高于经典马田系统,粗糙集方法大大减少了特征变量个数,可简化数据的收集工作,为医疗上乳腺癌疾病的早期诊断及其他实际分类工作提供技术参考.  相似文献   

10.
基于蚁群算法的模糊分类系统设计   总被引:1,自引:0,他引:1  
提出了一种基于最大-最小蚁群算法的模糊分类系统设计方法.该方法通过两个阶段来实现:特征变量选择和模型参数优化.首先采用蚁群算法对特征变量进行选择,得到一组具有较高分辩性能的特征变量,提高模型的解释性;在模型结构确定后,蚁群算法从训练样本中提取信息对模型的参数进行优化,在保证模型精确性的前提下,构造具有较少变量数目及规则数目的模糊模型,实现了精确性与解释性的折衷.最后将本方法运用到Iris和Wine数据样本分类问题中,并将结果与其它方法进行比较,仿真结果证明了该方法的有效性.  相似文献   

11.
基于主题模型的半监督网络文本情感分类研究   总被引:1,自引:0,他引:1  
针对网络评论文本的情感分类问题中存在的数据的不平衡性、无标记性和不规范性问题,提出一种基于主题的闽值调整的半监督学习模型,通过从非结构化文本中提取主题特征,对少量标注情感的文本训练分类器并优化指标调整闽值,达到识别用户评论的情感倾向的目的。仿真研究证明阈值调整的半监督模型对数据非平衡性和无标记性具有较强的适应能力。在实证研究中,对酒店评论文本数据构建的文本情感分类器显示该模型可以有效预测少数类评论样本的情感极性,证实了基于主题模型的闽值调整半监督网络评论文本情感分类模型在实际问题中的适用性与可行性。  相似文献   

12.
基于SMMC模型的数据多流形结构分析研究   总被引:1,自引:0,他引:1  
采用混合多流形谱聚类模型(SMMC)对独立子空间、非独立子空间,非线性良分离及非线性交叉等流形聚类中的四种典型数据进行聚类,并与其他流形聚类方法进行比较,发现SMMC模型聚类效果良好且具有强鲁棒性和泛化能力.将SMMC模型运用于具有混合多流形结构的工件外部边缘轮廓进行聚类,结果显示SMMC模型能够很好的将其分为三类.针对SMMC模型复杂度高、选取参数困难及运行时间长的问题,提出了基于模拟退火遗传算法SMMC模型,结果发现改进后的模型能够大大缩短运行时间.  相似文献   

13.
准确识别电子商务信用风险,有利于提高企业风险防范能力,减少损失.建立了基于粗糙集(RS)、遗传算法(GA)和支持向量机(SVM)的电子商务信用风险分类模型(RS-GA-SVM).首先,利用RS对分类指标进行约简,选择出电子商务信用风险关键影响因素.其次,采用GA算法优化SVM模型参数,并应于电子商务信用风险分类.最后,实证表明,RS-GA-SVM模型具有高的分类精度和分类效率.  相似文献   

14.
"数据挖掘"是数据处理的一个新领域.支持向量机是数据挖掘的一种新方法,该技术在很多领域得到了成功的应用.但是,支持向量机目前还存在许多局限,当支持向量机的训练集中含有模糊信息时,支持向量机将无能为力.为解决一般情况下支持向量机中含有模糊信息(模糊参数)问题,研究了模糊机会约束规划、模糊分类中的模糊特征及其表示方法,建立了模糊支持向量分类机理论,给出了模糊线性可分的模糊支持向量分类机算法.  相似文献   

15.
基于Fuzzy理论的数据挖掘算法研究(Ⅰ)   总被引:1,自引:1,他引:0  
“数据挖掘”是数据处理的一个新领域.支持向量机是数据挖掘的一种新方法,该技术在很多领域得到了成功的应用.但是,支持向量机目前还存在许多局限,当支持向量机的训练集中含有模糊信息时,支持向量机将无能为力.为解决一般情况下支持向量机中含有模糊信息(模糊参数)问题,研究了模糊机会约束规划、模糊分类中的模糊特征及其表示方法,建立了模糊支持向量分类机理论,给出了模糊线性可分的模糊支持向量分类机算法.  相似文献   

16.
不平衡数据的企业财务预警模型研究   总被引:1,自引:0,他引:1  
在股票市场中,由于被评为"ST"的公司数量远远少于普通的公司,所以用于训练财务预警模型的数据有着严重的不平衡性。而一般的分类模型如logistic回归等并不具备处理不平衡数据的能力。本文应用加权L1正则化支持向量机(w-L1SVM)构建一个可以处理不平衡数据的财务预警模型:一方面,w-L1SVM通过对两类样本的损失函数进行加权处理,有效地解决了样本不平衡性带来的预测精度问题;另一方面,w-L1SVM通过引入LASSO罚,使得模型在训练的过程中可以直接进行特征选择。通过数值模拟,本文验证了w-L1SVM在非平衡数据分类问题中的预测和特征选择表现。在实证研究中,本文针对我国股票市场机械、设备、仪表板块中的上市公司构建了一个基于w-L1SVM的财务预警模型,结果显示基于w-L1SVM的财务预警模型可以有效选择重要的财务指标并预测被评为"ST"的公司,并且其预测效果显著优于非加权的传统模型,这充分说明了w-L1SVM在财务预警问题中的适用性。  相似文献   

17.
在地质科学中,正确的岩石分类有助于研究岩石的成因、形成条件、演化过程和工程设计等.由于地质条件的多样性、变异性及复杂性,人们很难对岩石样本进行准确的分类.通过主成分分析法(PCA)从影响火成岩分类的众多氧化物评价指标中提取出主成分,用遗传算法(GA)优化支持向量机参数,并采用支持向量机方法(SVM)对实际火成岩公开数据进行训练,建立了火成岩岩石分类的PCA-GA-SVM模型,同时结合火成岩实际数据将预测结果和基于Levenberg-Marquardt算法改进的BP神经网络模型(LM-BP)的预测结果做了比较.结果表明:基于PCA-GA-SVM模型得到的火成岩分类预测结果精度较LM-BP神经网络有很大的提高,与实际分类相符,有广泛的应用前景.  相似文献   

18.
结合粗糙集理论中相似关系的思想,提出了一种基本相似度的样本分类算法.并通过实例说明了该分类算法的有效性。  相似文献   

19.
A Dual-Objective Evolutionary Algorithm for Rules Extraction in Data Mining   总被引:1,自引:0,他引:1  
This paper presents a dual-objective evolutionary algorithm (DOEA) for extracting multiple decision rule lists in data mining, which aims at satisfying the classification criteria of high accuracy and ease of user comprehension. Unlike existing approaches, the algorithm incorporates the concept of Pareto dominance to evolve a set of non-dominated decision rule lists each having different classification accuracy and number of rules over a specified range. The classification results of DOEA are analyzed and compared with existing rule-based and non-rule based classifiers based upon 8 test problems obtained from UCI Machine Learning Repository. It is shown that the DOEA produces comprehensible rules with competitive classification accuracy as compared to many methods in literature. Results obtained from box plots and t-tests further examine its invariance to random partition of datasets. An erratum to this article is available at .  相似文献   

20.
基于遗传算法的同步优化算法   总被引:1,自引:0,他引:1  
提出一种基于遗传算法的同步优化算法,该算法吸取了遗传算法和模拟退火算法的各自优点,将二进制编码和实数编码有机地结合起来,既能够快速收敛到全局最优解,又能够在优化神经网络结构的同时,得到较好的权值分布.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号