首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
如何通过构建可靠的信用评分模型来评估贷款申请人的信用风险在信贷风险管理行业中发挥着重要的作用,这也成为学术界和商业界的一项重要研究课题。本文通过先筛选数据变量,然后再建立模型的方法,探讨了3种不同连接函数下广义线性模型的分类问题,并且当连接函数为logit (对应logistic回归模型)时,加入了自变量的交互项以优化模型。以德国UCI数据集为例,采用AUC和KS指标作为评价指标,与随机森林、支持向量机和XGBoost模型等目前信贷评分中最常用的统计学习模型进行了分析对比,结果表明:广义线性模型中logistic回归模型和SVM预测效果尚佳;对于连接函数为logit的广义线性模型,加入交互项后AUC和KS有所提高,表明交互项的加入优化了模型。  相似文献   

2.
特征选择方法在信用评估指标选取中的应用   总被引:2,自引:0,他引:2  
在信用评分模型中所运用的指标变量对模型的表现有重要的影响,指标选取方法的科学化规范化水平有待于进一步提高。本文研究了机器学习领域的特征选择方法在定量确定信用评分模型指标体系上的应用。以实际信用评估问题为例,对四种特征选择方法(ReliefF方法、基于相关性的方法、基于一致性的方法和包裹性)进行了比较试验,验证了特征选择方法可以在精简性、速度和准确率三个方面提高信用评分模型的表现。其中基于一致性的方法和包裹法表现优于Reli-efF方法和基于相关性的方法。  相似文献   

3.
基于经验分布函数(EDF)的Kolmogorov-Smirnov (KS),Cramer-von Mises (CM)和AndersonDarling (AD)统计量是单变量正态性检验中常用的统计量.本文通过变量降维方法,提出基于EDF的广义统计量来检验高维正态性.通过蒙特卡洛方法模拟了三种统计量的近似临界值,并基于单变量情形下统计量的近似分布公式研究了广义统计量在原假设下的近似分布.蒙特卡洛模拟说明在某些备择假设下,所提出的统计量比现有方法功效更好.最后,本章将提出的检验方法应用于实际数据验证统计量的有效性.  相似文献   

4.
本文提出了恢复Gauss关联结构(copula)图模型的充分降维方法,该方法在超高维情形下具有很高的计算效率.本质上,充分降维是通过对利用非参数方法估计的相关系数矩阵进行截断来实现的.本文给出了所提方法的理论性质,保证其所估计的边集合以概率趋于1覆盖所有真实存在边的集合.数值模拟研究发现,本文所提方法与现存方法相比有相近的估计表现,而计算效率却更高.最后分析了一组基因数据来展示本文所提方法的实际应用表现.  相似文献   

5.
模糊IF-THEN规则模型因其可产生具有较好解释性的推理结果受到了广泛的关注。对于高维、复杂的问题,模糊IF-THEN规则模型却未充分利用数据特征中包含的层次信息,对数据的多水平表征能力较弱。此外,模糊模型的构建往往受到数据质量、专家知识等因素的影响导致数值输出伴随着不确定性。本文基于合理粒度原则提出了一种具有多层结构的Takagi-Sugeno(T-S)模糊模型的建模方法。该方法在粒计算框架下将模糊技术与多层学习策略相结合,并在数据子空间内部采取逐层划分的方法进一步挖掘数据中隐含的结构信息,使模型具有良好的可解释性,同时以信息粒为输出体现了主要的预测范围。最后,在公开数据集上进行数据实验,检验了所提方法的有效性。  相似文献   

6.
在多元线性回归中,变量选择紧密依赖模型,与影响数据密切相关。本文从模型扰动的角度,研究了变量选择与数据的关系,用微分几何中的概念,提出了用曲线的变化率、加速率及其曲率三种量测,去评价数据对变量选择的影响,从而诊断影响数据。文中给出的数值例子表明,所提影响量测,对于诊断数据对变量选择的影响是有效的。  相似文献   

7.
本文针对固定删失分位数回归模型中的变点问题提出一种新的检测方法;基于观测值的有效子集信息和分位数目标函数的次梯度提出检验统计量.在原假设下,本文得到检验统计量的渐近性质,并且通过模拟方法得到渐近分布的临界值.由于本文提出的方法仅需要在原假设下拟合模型,所以其在计算上更加有效.此外,相比较于传统的Powell方法,数值模拟研究发现本文提出的方法在有限样本的条件下有相近功效及更高的计算效率.最后,本文分析了一组美国居民收入数据集来展示所提方法的实际应用表现.  相似文献   

8.
特征筛选方法对于超高维数据分析非常重要。本文基于Hoeffding’s独立检验统计量提出了一种新的条件独立筛选方法,简称为MMCSCIS。该方法具有以下特点:(1)不依赖于模型设定;(2)在自变量或因变量或条件变量的严格单调变换下结果不变;(3)可以同时处理条件特征筛选和特征筛选。通过模拟发现它对因变量或者自变量含有厚尾分布的数据和含有异常值的数据都比较稳健。最后我们通过两个实例分析说明了该方法的有效性。  相似文献   

9.
极值理论主要研究小概率、大影响的极端事件.当前,复合极值分布已经广泛应用于水文、气象、地震、保险、金融等领域.本文以极值类型定理和PBDH定理为理论依据,构建了二项-广义Pareto复合极值分布模型;使用概率加权矩方法,对所建立的复合模型推导参数估计式;利用计算机模拟,得到了Kolmogorov-Smirnov(简称KS)检验统计量的临界值.  相似文献   

10.
基于病例队列数据的比例风险模型的诊断   总被引:1,自引:0,他引:1  
余吉昌  曹永秀 《数学学报》2020,63(2):137-148
病例队列设计是一种在生存分析中广泛应用的可以降低成本又能提高效率的抽样方法.对于病例队列数据,已经有很多统计方法基于比例风险模型来估计协变量对生存时间的影响.然而,很少有工作基于病例队列数据来检验模型的假设是否成立.在这篇文章中,我们基于渐近的零均的值随机过程提出了一类检验统计量,这类检验统计量可以基于病例队列数据来检验比例风险模型的假设是否成立.我们通过重抽样的方法来逼近上述检验统计量的渐近分布,通过数值模拟来研究所提方法在有限样本下的表现,最后将所提出的方法应用于一个国家肾母细胞瘤研究的真实数据集上.  相似文献   

11.
采用统计检验的方法对基因表达数据的特征选取和冗余去除展开研究,为此提出了相应模型及算法,与已有文献中的模型与算法相比较,该模型所提方法思路直观,易于理解,算法构造简单,且运行效率高.数值实验选取3个两分类基因表达数据集,实验结果表明该方法对特征选取和冗余去除均有较好的效果.在此基础上,采用类中心距离法对选取的特征基因进行了分类实验,结果进一步表明,本文提出的方法对两分类基因表达数据具有较高的分类精确度.  相似文献   

12.
本文提出一种基于Fiducial推断的模型不确定度量,给出基于Fiducial边际似然的高维线性回归变量选择方法改进ε-容许集(ε-admissible set, EAS)方法.在传统的稀疏性假设下,本文证明该方法所选择的最优模型具有相合性.此外,本文还建议使用一种快速的算法来挑选阈值参数.本文通过模拟研究验证了所提出方法的优越性,并使用所提出的方法分析了一个真实数据案例.  相似文献   

13.
本文首先从数据缺失机制的角度分析了信用评分模型的开发和应用中所存在的样本偏差问题,提出了可以用拒绝推断来处理此类问题;然后在曾经被应用于拒绝推断问题处理的Heckman两阶段模型的基础上,提出了用拟似然两阶段模型和广义偏线性模型这两种新的两阶段方法来处理信用评分模型中的拒绝推断问题。经过实证分析发现,应用这两种方法可以得到很理想的结果。另外根据本文的研究,人行征信这类外部数据是拒绝推断最有效的方法,如果此类数据缺乏,则用拟似然两阶段模型和广义偏线性模型是比较有效的拒绝推断方法。  相似文献   

14.
对分层含结构零2×2列联表中风险比的同时置信区间估计问题,提出五种基于似然比统计量、Score统计量、Wald统计量和对数变换Wald统计量的同时置信区间及三种Bootstrap同时置信区间。并采用Bonferroni,Single-step adjusted MaxT和Single-step adjusted MinP三种多重检验过程计算临界值。通过同时置信区间覆盖概率、覆盖宽度和Mesial非覆盖概率与非覆盖概率之比(RNCP)的模拟研究比较了置信区间的统计性能。结果表明,MinP检验过程下基于Score统计量的同时置信区间具有令人满意的结果,即这个区间的覆盖概率非常接近置信水平,且Mesial非覆盖概率与非覆盖概率之比(RNCP)均在[0.4,0.6]之间。最后通过实例分析对所提方法进行验证。  相似文献   

15.
信用评估是银行开展中小微企业信贷业务的重要环节,尽管已有信用评估模型的分类性能较高,但仍有待进一步提升,同时模型也缺乏可解释性,在一定程度上影响了模型的推广应用。为此,本文提出了一种基于模糊信息分解的中小微企业信用评估组合模型。首先,针对信用评估数据的不平衡性,利用模糊信息分解的方法进行过采样处理。其次,基于XGBoost模型和Logistic回归模型,构建了一种具有较高的分类性能和良好可解释能力的中小微企业信用评估组合模型。最后,结合某商业银行对中小微企业的信用数据,实验验证了所构建组合模型的可行性和有效性。  相似文献   

16.
利用线性模型鉴别异常数据的方法   总被引:1,自引:0,他引:1  
本文给出利用线性模型 y=Xβ+ε鉴别异常数据的新方法——Z 检验法.文中给出该检验方法 Z 统计量的分布规律,并阐述了 Z 检验法的检验规则.与其它方法相比,它的主要优点是:能满足无偏和具有最小弃真概率两种检验要求;Z 统计量的临界值计算比较简单.  相似文献   

17.
陈冉冉  李高荣 《数学学报》2017,60(5):763-778
研究了面板数据交互固定效应模型中方差分量的检验问题.首先依据模型中误差项的估计构造辅助回归模型,然后根据该辅助回归构造检验统计量,对模型中的异方差性进行检验.进一步,通过构造不同的辅助回归模型和检验统计量可以判别异方差的来源.在一定正则条件下,得到了检验统计量在原假设和备择假设下的渐近分布,并说明所提出的检验方法不依赖于误差分布.最后,通过模拟研究对本文的检验方法进行评价,说明所提检验方法是有效的.  相似文献   

18.
过离散次数分布模型的尾部特征   总被引:1,自引:0,他引:1  
在保险精算和生物统计等领域,离散型次数分布模型的应用十分广泛.当实际数据的尾部较长(即过离散),且零点的概率较大时,许多模型的拟合效果往往欠佳.本文通过计算概率之比的极限和偏度系数,对混合泊松分布和复合泊松分布的右尾特征和零点概率进行了比较,给出了它们的尾部排列顺序,以及尾部长短与零点概率的关系,从而为模型的构造或选择提供了一种指导.本文最后应用一组实际数据说明了在构造或选择次数分布模型时如何考虑尾部特征,从而改善对实际数据的拟合效果.  相似文献   

19.
针对原有千车故障数统计方法上的不足,本文从改进统计方法着手,提出一种新的统计方法即重新定义千车故障数,然后利用数据挖掘中的聚类分析方法将具有相同特征的批次综合起来考虑,建立通用的运筹模型.针对缺失数据、近期预测这两个问题,本文对通用模型进行调整,“学习”出同类数据间的不同权值,然后利用加权数据,并通过拟合曲线来求出预测值.由于远期预测中数据的严重缺乏,则是从纯粹统计学的角度出发,计算得到预测值.预测模型通用性强,适用面较广.本文应用了SAS和MATLAB两种软件来求解上述模型,预测结果准确率较高,并且符合实际情况.  相似文献   

20.
本文研究双截尾删失回归模型中参数的随机加权估计(RWE),获得了RWE的统计渐近性质,如相合性和渐近分布.本文证明了RWE在给定样本下的条件渐近分布与参数的最小绝对偏差(LAD)估计的渐近分布是一样的,则可以利用RWE的条件分布去逼近回归参数的LAD估计的分布,从而避免冗余参数的估计,如误差项的密度函数.另外,本文也提出了一个M检验统计量和随机加权M检验统计量(RWM)来检验参数的线性假设问题,建立了该检验的统计性质.数值模拟和实际数据分析结果表明所提方法是可行的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号