首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 24 毫秒
1.
有序判别分析新算法及其应用   总被引:1,自引:1,他引:0  
判别分析是用已知分类数据建模对未知分类数据进行判别的方法,所用数据和分类不分顺序。要对有序又有周期数据进行判别分析,就要探索有序判别的新方法。这种方法的分类应当是有序的,并且能够排除事物发展周期性的干扰。本文介绍多元数据有序判别分析新方法的原理、建模流程、应用流程和应用实例。这种判别分析将分类建模与判别归类分开。新方法对多元数据建模时在多类模型中建立滑移的多套子模型,应用时根据应用领域的知识对样本归属作初步预估,然后程序选择相关的子模型进行判别归类。这种方法解决了由于时间序列多元数据周期性造成的样本分类颠倒问题,为时间序列数据的分类和预测开辟了新途径,在实际应用中取得了良好的效果,解决了重大难题。  相似文献   

2.
该文首次用几何方法研究回归模型中数据变换参数及其子集参数的渐近置信域问题.由于文中讨论的是一般的数据变换多参数的渐近置信域的曲率表示,从而有关结论适用于各种数据变换如著名的Box-Cox变换、带有漂移参数的幂变换等变换中变换参数的渐近置信域的曲率表示.  相似文献   

3.
针对肿瘤的早期诊断,提出了一种基于提升小波变换的特征提取的方法,对肿瘤数据样本进行分析鉴别.该方法利用提升小波变换对190例肝癌(包括对照)和107例肺癌(包括对照)基因表达谱芯片数据进行处理后,提取信号的低频信息,经支持向量机训练学习,构造分类器模型,用于癌和非癌样本的区分甄别.实验结果表明,经提升小波变换提取的特征基因,送入分类器中能得到较高的分类率,且在支持向量机中选取线性核函数或径向基函数都能达到较好的分类效果.通过随机选取的20例基因表达谱芯片样本,对所建立的模型进行了测试,获得了很好的效果,因此,本文提出的方法对肿瘤的诊断有一定的应用意义.  相似文献   

4.
胡杨对沙漠地区的生态平衡发挥着十分重要的作用,为了给胡杨的造林设计、经营规划提供参考,研究胡杨的材积与胸径的关系.实测阿拉尔地区78株胡杨的材积、胸径、树龄等指标,按照树龄从小到大的顺序,均匀分配建模样本59株和检验样本19株.对建模样本,基于Box-Cox变换,建立了材积与胸径之间的回归模型.对检验样本,模型的适应性检验中,总相对误差4.67%,平均相对误差为3.05%,高于林业上常用模型的估计精度,因此可以用于估算胡杨的材积.  相似文献   

5.
针对不平衡数据集分类问题,提出了一种基于聚类的欠采样方法.分别取不同的聚类个数,对训练集中的多数类样本进行若干次聚类,然后用聚类中心作为多数类样本,与少数类样本构成若干个新的训练集,之后用这些训练集训练分类器,剔除具有错误分类倾向的分类器,最后对分类结果进行投票.仿真实验对几种欠采样方法进行比较.实验采用16个平衡率不一的数据集进行测试.理论分析与实验结果表明:提出的基于聚类的欠采样方法能有效地改善不平衡数据集的不平衡性.  相似文献   

6.
为了克服目前地下水动态分类方法中存在的不能揭示分类指标空间到类型空间的非线性映射关系、方法复杂、计算量大等缺陷,可采用基于非线性变换的主成分投影(PCP)-聚类(C)模型,对地下水动态进行分类.方法首先对分类指标数据进行对数中心化变换,然后应用主成分投影法将变换后的多维指标向量映射到最优一维向量空间,并根据各样本指标在一维向量空间的投影值进行聚类分析,由此得到地下水动态分类结果.地下水动态分类结果表明,建议方法概念清晰,结构简单,计算简便,分类结果可信,是一种有效的地下水动态分类方法.  相似文献   

7.
《大学数学》2016,(4):44-49
主要运用基于Box-Cox变换的惩罚极大F检验(TransPMF test)对上证综指的连涨连跌收益率进行变结构分析.选用2000年1月到2014年12月共3814个日对数收益率数据,采用transPMF方法检验这段时间内的连涨与连跌收益率是否存在变结构问题,估计变结构的个数与位置,并对发生变结构的原因结合实际进行分析.  相似文献   

8.
癌症的早期诊断可以显著提高癌症患者的存活率,三分类问题就是将未知样本与已知样本进行匹配度检测,预测样本是健康状态,良性发展状态,还是癌症状态.针对复杂难分的卵巢癌蛋白质质谱数据,提出了一种基于高斯混合模型和BP神经网络的三分类预测模型.首先,去除原数据中的冗余,对其进行方差排序及交集筛选提取特征集合一,再利用高斯混合模型处理求得参数作为特征集合二,最后使用BP神经网络进行样本三分类,准确率达到72.9%.结果表明:模型可以作为卵巢癌质谱数据三分类的可选择工具.  相似文献   

9.
从宏观面与微观面研究海南某医院2012-2014年急诊患者就诊人数的统计建模,宏观面根据月,周数据建立时间序列模型,进行了相关预测,发现存在负的"一月效应"和负的"周二,周四效应",正的"周日效应".微观面根据日数据及分时段数据,研究就诊人数的概率分布,借助Box-Cox变换和Matlab软件编程,把非正态分布的序列变换成正态分布,估计其中的有关参数,确定密度函数,从而进行统计推断,给定显著性水平α(如α=0.05),在置信水平(如95%)下,得到患者在一日内及不同时段就诊人数的置信区间,为医院管理部门合理安排医护人员提供科学依据.  相似文献   

10.
在实际应用中,经常遇到数据分类集合中某一类的样本数量明显少于其他类的样本数量的数据不平衡问题.在二分类数据集中,一般称样本数目多的一类数据集合为正类,样本数目少的一类数据集合为负类.为了提高算法在不平衡数据集下的分类性能,提出了首先利用K-means找出负类中心点,再根据SMOTE基本原理,得出新的数据集.通过对比新数据集和原不平衡数据集在不同算法中的分类应用,结果表明本文改进算法的分类效果得到明显提升,最后用两两配对T检验验证算法的有效性.  相似文献   

11.
利用传统支持向量机(SVM)对不平衡数据进行分类时,由于真实的少数类支持向量样本过少且难以被识别,造成了分类时效果不是很理想.针对这一问题,提出了一种基于支持向量机混合采样的不平衡数据分类方法(BSMS).该方法首先对经过支持向量机分类的原始不平衡数据按照所处位置的不同划分为支持向量区(SV),多数类非支持向量区(MNSV)以及少数类非支持向量区(FNSV)三个区域,并对MNSV区和FNSV区的样本做去噪处理;然后对SV区分类错误和部分分类正确且靠近决策边界的少数类样本重复进行过采样处理,直到找到测试结果最优的训练数据集;最后有选择的随机删除MNSV区的部分样本.实验结果表明:方法优于其他采样方法.  相似文献   

12.
将Box-Cox变换与分位数回归模型相结合(两阶段法),是分位数回归研究领域的一大进步。该法虽然两步都与分位数回归的检验函数紧密结合,但是由于没有利用分位数回归的优良性质,而是引入了中间参变量,因此增加了模型的累进误差,降低了模型精度。更重要的是,两阶段法没有对于分位数回归领域中普遍出现的分位数回归曲线的相交问题给出解决方法。针对这些问题,经研究应该首先确定Box-Cox变换的参数,避免模型中不确定因素的引入,然后对数据进行整体变换并结合分位数检验函数,直接利用分位数回归的优良性质,最终确定分位数回归模型的参数。实例证明,该方法提高了模型的精度,可以有效地解决分位数回归曲线的相交问题。  相似文献   

13.
模糊C均值算法的改进   总被引:13,自引:0,他引:13  
模糊聚类分析方法具有较强的实用性,但传统的模糊C均值算法对数据集进行分类时有均分的趋势,对于数据集中各类样本数目相差较大的情况,其聚类结果不是很理想.因此,本文对FCM算法进行了改进,使之不但能够达到更好的分类效果,同时也更加适用于样本分类不均衡的聚类问题.文中还结合具体算例进行了聚类分析,得到了理想的分类效果.  相似文献   

14.
针对多指标面板数据的样品分类和历史时期划分问题,从多元统计分析理论角度提出一个多指标面板数据的融合聚类分析方法。该方法改进了多指标面板数据的因子分析和系统聚类方法,依据Fisher有序聚类理论,构造了Frobenius范数形式的离差平方和函数,提出了多指标面板数据的有序聚类方法。实证结果表明,该方法能够满足系统分析的统一性要求,保证指标之间的不相关;能够克服时间维度上均值处理造成的偏误,信息损失较少;能够解决面板数据有序聚类的问题;弥补了单一分析的片面性和局限性。  相似文献   

15.
随着机器学习和生物信息学的快速发展,癌症亚型分类成为当前研究热点之一.根据亚型的分类,可以指导癌症的治疗和预后.近年来,许多监督学习方法被用于癌症亚型分类.考虑到高维、样本数量少和数据不均衡等特点,本文首先利用LDA进行降维,其次利用SMOTE算法均衡数据,再利用Extra-Trees模型对癌症亚型进行分类,最后基于TCGA中9种癌症25种癌症亚型的3 296个样本来验证模型的有效性.实验结果表明,利用给出的模型进行癌症亚型分类具有很好的效果.  相似文献   

16.
因子分析的Q形和R形是对偶的,在应用计算机软件包时只需将数据阵输入时作转置处理即可,但在意义上本文强调Q形因子分析应用于分类更为合理。R形多应用于变量的化简,用于分类是有缺点的。本文将Q形因子分析应用于北京地区的气候分类。  相似文献   

17.
基于图的半监督分类方法近年来在模式识别和机器学习领域取得了广泛的关注.然而许多传统方法在构建邻域图时采用固定的邻域尺寸,且在模型训练过程中同等对待所有样本,忽略了样本间的差异性,从而影响了方法的效果.对此,文章提出一种基于自步学习和稀疏自表达的半监督分类方法,提取并保持数据的有判别信息的稀疏自表达结构,并基于自步学习机制提出一种新的自步学习项,将数据重要程度的软权重与硬权重相结合,来对样本进行学习.所提方法能够自适应建立数据间的关系,自动给出样本的重要程度并由易到难进行学习,且具有多类的显性非线性分类函数.几个标准数据集上的实验结果表明,所提算法具有较好的半监督分类效果.  相似文献   

18.
在多维定性数据处理的问题中,不仅要研究变量之间的关系、样本之间的关系,还需研究样本与变量之间的关系,从而对潜在样本群子结构水平及其类型特征进行分析。本文采用对偶标度统计方法利用设计矩阵变换将原始多维定性数据进行类型特征分析,并在此基础上建立了基于模糊分类的直方图,表现出了潜在样本群的特征及其子结构之间的差异与联系。文章以分析儿童主体品质发展规律为例,说明此方法的有效性。  相似文献   

19.
在处理高维数据的检验和分类等问题时,涉及到协方差矩阵的估计.而在高维数据领域,协方差矩阵估计的精度将对诸如检验和分类等问题起到非常重要的影响.主要考虑多样本条件下协方差矩阵的比率相合性问题,证明了两样本和三样本情况下的高维数据协方差矩阵比率相合性.  相似文献   

20.
针对多指标面板数据的公因子提取及评价问题,提出一种充分挖掘面板数据时间序列价值的分层因子模型.模型在底层上通过对各个时点上截面数据指标变量的精炼实现对截面样本数据的评价,将截面数据压缩成只具有时间维度的样本评价值向量;模型顶层进一步实现了对由各个截面样本评价值向量形成的综合评价矩阵时间维度的精炼,并推导出面板数据因子得分公式及评价函数.最后,运用模型方法对我国大陆31个省市国有及规模以上非国有企业生产及经营状态面板数据进行了因子分析,分析结果显示了方法的合理性.分层模型实现了对面板数据各样本的指标维度与时间维度的双重提炼,弥补了现有方法的片面性与局限性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号