期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

《数理统计与管理》2019,(1):81-86

变量选择是统计建模中重要的问题。当试验数据维数很高时,传统变量选择方法的应用受到了很多制约。本文以高维混料试验为基础,比较了AIC准则和LASSO在变量选择问题上的优良性。通过实例验证,LASSO可以快速且准确地对高维混料模型中的变量进行筛选,从而得出最优模型,达到降低成本、提高利益的目的。相似文献

2.

逻辑回归模型的Smooth LASSO及Spline LASSO变量选择

《应用概率统计》2019,(3)

对于逻辑回归模型中的参数估计和变量选择问题,提出了Smooth LASSO以及Spline LASSO.当变量具有连续性,使用Smooth LASSO,可以获得局部恒定的系数.但是在有些情况下,系数可能不同并且缓慢变化,可以使用Spline LASSO来估计参数.本文通过理论证明模型的可靠性,利用坐标下降法对模型进行求解,最后通过模拟验证了模型在变量选择中的准确性以及较好的预测性. 相似文献

3.

测量误差模型的自适应LASSO变量选择方法研究

下载免费PDF全文

李锋 ;盖玉洁 ;卢一强《中国科学:数学》2014,44(9):983-1006

本文研究测量误差模型的自适应LASSO(least absolute shrinkage and selection operator)变量选择和系数估计问题.首先分别给出协变量有测量误差时的线性模型和部分线性模型自适应LASSO参数估计量,在一些正则条件下研究估计量的渐近性质,并且证明选择合适的调整参数,自适应LASSO参数估计量具有oracle性质.其次讨论估计的实现算法及惩罚参数和光滑参数的选择问题.最后通过模拟和一个实际数据分析研究了自适应LASSO变量选择方法的表现,结果表明,变量选择和参数估计效果良好. 相似文献

4.

数据空间结构性及在KNN算法中的应用

张梓童张春雷张艳张栋高世臣《数学的实践与认识》2019,(1)

数据空间结构性是多维数据客观存在的本征特征,是数据挖掘的重要内容.通过统计学的方法,分析多维数据空间属性变量和类型变量之间的结构特征,可以准确刻画数据在多维变量空间的相关性及其各向异性.数据空间结构特征可以用于机器学习算法的改进和提升,以提高模式识别的效果.融合了数据空间结构特征的KNN算法在稳定性和识别精度上均优于传统算法.通过在苏里格气田苏东41-33区块复杂碳酸盐岩的岩性识别中的应用表明,与传统KNN算法相比,数据空间结构的引入能提高识别准确率12.35%,并显示出算法的灵活性和适用性.多维数据空间结构的研究对机器学习算法的泛化能力和迁移性的提升等方面具有促进作用. 相似文献

5.

超高维数据边际经验似然独立筛选方法（英文）

《应用概率统计》2019,(2)

可加模型通过协变量函数对响应变量起作用,是更加灵活的非参统计模型.当协变量个数大于样本数且以指数阶增大时,将维数降到经典方法可解决的范围是统计学家急需解决的问题.本文研究了超高维数据可加模型的变量筛选问题,提出了边际经验似然变量筛选方法.该方法通过排列在0点的边际经验似然率选择变量.我们证明了选择变量集以概率1渐进包含真实变量集;提出了迭代边际经验似然变量筛选方法.数据模拟和实数据分析验证了所提方法的可行性. 相似文献

6.

上市公司信用风险分析模型中的变量选择

胡心瀚叶五一缪柏其《数理统计与管理》2012,(6):1117-1124

当前上市公司信用风险数据所呈现出的高维度以及高相关性的特点严重影响了信用风险模型的准确性。为此本文结合已有算法以及信用风险模型的特点设计了一种新的基于非参数的变量选择方法。通过该方法对上市公司用风险相关变量进行分析筛选可以消除数据集中包含的噪声变量以及线性相关变量。本文同时还针对该方法设计了高变量维度下最优解求解算法。文章以Logistic模型为例对上市公司信用风险做了实证分析,研究结果表明与以往的变量选择方法相比该方法可以有效的降低数据维度,消除变量间的相关性,并同时提高模型的可靠性和预测精度。相似文献

7.

高维泊松回归的模型平均方法

周建红赵尚威《系统科学与数学》2018,(6)

当有很多候选模型并且不确定使用哪个模型时,模型平均是一种值得采用的方法.相对于单个模型,模型平均通常能够提高预测精度.文章提出了高维泊松回归的模型平均方法,证明了其最优性质,并通过数值模拟发现该方法能够提高计数变量的预测精度.同时,考虑到高维数据下,候选模型过多的问题,文章也提出了一种新的模型筛选方法:基于最小角回归(LARS)的LASSO(或ALASSO)修正算法的模型筛选方法.该种方法,可以大大减少计算负担.数值模拟也显示了该方法有很好的表现. 相似文献

8.

Morgenstern族次序统计量的协变量的分布

郭丽莎金凌辉曹永秀《数学杂志》2012,32(1):173-180

本文研究了Morgenstern族次序统计量的协变量的分布及其在筛选测验中的应用.利用排序集抽样的方法,获得了分组测验情形下每组协变量的极值的分布.最后,将上述结果应用至总体为Gumbel二维指数分布和二维均匀分布的情形,给出了不同的样本量下选择问题的筛选效率. 相似文献

9.

零膨胀泊松混合回归中的变量选择

王思洋高铭《应用数学学报》2023,(1):88-100

来源于不同总体的数据异质性较大,数据“零取值”较多且离散度大,可利用零膨胀泊松(ZIP)混合回归模型建模分析,然而混合模型中自变量较多.为了筛选出重要变量,本文利用自适应LASSO对ZIP混合回归模型进行变量选择,即在似然函数中加入惩罚项,再利用EM算法估计参数.通过模拟,验证了该方法在变量选择和参数估计中的有效性.同时,将ZIP混合回归模型应用于预测借贷失败次数的实际数据分析,筛选出对借贷失败有重要影响的因素.最后,通过比较各模型的预测效果,得到ZIP混合回归模型优于泊松(Poisson),负二项(NB)和ZIP回归模型. 相似文献

10.

基于Copula熵的变量选择（英文）

《应用概率统计》2021,(4)

在要求可解释性的机器学习和统计应用中,变量选择对分类和回归任务十分重要.本文提出了一种基于Copula熵的变量选择方法,利用Copula熵值的阶次选择变量.本方法既是模型无关的又是参数无关的.在UCI心脏病数据的基础上进行了本方法与传统变量选择方法(包括距离相关、希尔伯特-施密特独立性准则、逐步选择、正则化广义线性模型和自适应LASSO)的对比实验.实验结果表明,基于Copula熵的方法能够更有效地选择‘正确’的变量,在不牺牲准确性性能的同时得到比传统方法更具可解释性的模型. 相似文献