共查询到20条相似文献,搜索用时 31 毫秒
1.
在多标签特征选择中,如果不考虑标签结构信息,只选取与单个标签相关的特征或只选取与整体标签集合相关的特征,则容易选取不重要特征,且也容易遗漏重要特征.为此,提出了一种基于标签组合的多标签特征选择算法——LG_MLFS.该算法的主要特点是:(1)考虑标签集合的组结构,并按照标签相关性进行分组.(2)利用标签的相关性结构信息... 相似文献
2.
近年来,恐怖袭击愈演愈烈,合理分析判断恐怖袭击事件对于预防应急和安全救治可以发挥重大作用.根据用特征选择方法筛选出的主要属性,结合求出的属性权重构建了线性函数模型,以量化求出恐怖袭击事件的危害值,并以此构建恐怖袭击事件的量化分级模型.同时,还利用数据分析方法对恐怖袭击事件和反恐态势进行了分析. 相似文献
3.
A股高送转作为我国政策特有的现象,对其精确、有依据的预测有一定的研究价值.本文对A股数据集进行缺失值、异常值、标准化等数据处理,采取特征选择中过滤法、包裹法、嵌入法等方法提取特征,结合经济学意义得到最终特征.数据的不平衡采取过采样、欠采样以及SMOTE采样等方法处理.最后采用基于Stacking算法融合模型,第1层学习器采用5种分类机器学习模型,并进行超参数调整;第2层采用LightGBM模型预测,以F1分数为评价指标,进行对A股市场预测哪些公司可能会实施高送转. 相似文献
4.
利用随机森林特征选择算法,对信用评估的可用指标集进行特征选择,在此基础上建立基于随机森林融合朴素贝叶斯的信用评估模型.选取UCI数据库中的German数据集进行实证研究,结果表明,通过随机森林进行特征选择的随机森林融合朴素贝叶斯模型具有更高的预测准确度. 相似文献
5.
尽管近几十年来量化投资得到了发展,策略也趋于多样化,但随之而来的还有各种问题和瓶颈,如数据选择,模型在金融市场的有效期过短.本文建立了一个基于随机森林算法的多因素股票选择模型.在该模型中,从6个不同维度中选择12个因子来构建因子库,并对因子数据进行预处理.在确定模型参数后,基于处理后的数据,对单个股票的预测和操作策略指导获得了可观的回报率,这为下面的投资组合构建奠定了基础.在投资组合的构建中,本文选择的股票池由更能代表中国股市的沪深300成分股组成.选取2013-01-01至2015-01-01两年的数据,包括12个入选因素和股票的上涨情况.为了在策略写作过程中尽可能地模拟真实情况,设置了滑动和手续费等影响因素.在模型的回测实验结果中,获得了25.5%的年化回报率.此外,根据特征在随机森林算法中的重要性和相关性分析,对影响因素和模型进行了进一步的改进,改进模型的年化收益率高达32.2%,超额收益率α达到15.1%,获得了较高的夏普比和较低的回撤率. 相似文献
6.
王松波 《数学的实践与认识》2022,(9):132-146
大多数现有的进化算法在处理多目标优化问题(multi-objective optimization problem,MOP)时会遇到Pareto最优解稀疏的困难,特别是当决策变量的数目很大时,如旨在从大量候选特征中找出小部分特征的特征选择.为此,提出了一种求解大规模稀疏MOP的进化算法.算法考虑Pareto最优解的稀疏性,提出了一种新的种群初始化策略和遗传算子,以保证解的稀疏性.此外,还设计了一个测试套件来评估该算法在大规模稀疏MOP中的性能,实验结果和应用实例证明了该算法在处理大规模稀疏MOP问题上的优越性. 相似文献
7.
《数学的实践与认识》2019,(22)
高光谱遥感数据波段数目较多,且波段之间的相关性高,影响到敏感波段在地物识别中的作用,并造成大量冗余计算,降低时效.提出了一种随机森林结合递归特征消除的敏感特征选择方案,以提高高光谱遥感地物识别的精度与效率.通过RF-RFE特征选择方法得到最优特征组合,并运用LightGBM和XGBoost等提升算法来提高分类精度.在江苏省常州的茶树数据集上进行分类实验时,在原始数据上的分类精度达到了94.27%和94.45%;在特征选择出的最优特征子集上进行实验时,分类精度达到了94.40%和94.36%.实验结果表明,该方案的分类精度要优于决策树和朴素贝叶斯等传统分类算法,同时大幅减少了运算量,取得了较好的识别效果,具有一定的推广和应用价值. 相似文献
8.
针对单一视觉特征跟踪的局限性,提出一种根据场景变化动态建立目标模型的粒子滤波视觉跟踪算法,方法首先选择简单且具有互补性的色彩与纹理特征描述表示当前图像,然后在粒子滤波框架下,利用民主融合策略进行信息融合,从而提高目标观测模型的鲁棒性;分析和实验表明, 算法对视频运动目标的任意平移、转动、部分遮挡、光照变化以及相似物干扰等情况下的跟踪均具有较好的效果. 相似文献
9.
生存核的计算是控制理论中的一个重要研究方向.给出了一种计算一般离散控制系统生存核的新算法.基于机器学习的方法,给出了逼近生存核的算法.并在一定条件下,证明了此算法的收敛性.此算法在一定程度上避免了计算量随控制空间的维数增长而指数增长的问题.最后,给出具体的实际例子来说明算法的有效性. 相似文献
10.
虚假评论是电商发展过程中一个无法避免的难题. 针对在线评论数据中样本类别不平衡情况,提出基于BalanceCascade-GBDT算法的虚假评论识别方法. BalanceCascade算法通过设置分类器的误报率逐步缩小大类样本空间,然后集成所有基分类器构建最终分类器. GBDT以其高准确性和可解释性被广泛应用于分类问题中,并且作为样本扰动不稳定算法,是十分合适的基分类模型. 模型基于Yelp评论数据集,采用AUC值作为评价指标,并与逻辑回归、随机森林以及神经网络算法进行对比,实验证明了该方法的有效性. 相似文献
11.
Yu. V. Goncharov I. B. Muchnik L. V. Shvartser 《Computational Mathematics and Mathematical Physics》2008,48(7):1243-1260
An algorithm for selecting features in the classification learning problem is considered. The algorithm is based on a modification of the standard criterion used in the support vector machine method. The new criterion adds to the standard criterion a penalty function that depends on the selected features. The solution of the problem is reduced to finding the minimax of a convex-concave function. As a result, the initial set of features is decomposed into three classes—unconditionally selected, weighted selected, and eliminated features. Original Russian Text Yu.V. Goncharov, I.B. Muchnik, L.V. Shvartser @, 2008, published in Zhurnal Vychislitel’noi Matematiki i Matematicheskoi Fiziki, 2008, Vol. 48, No. 7, pp. 1318–1336. 相似文献
12.
为了提高临近支持向量机(PSVM)的数值表现,在PSVM的模型中引入了$ell_0$-范数正则项,提出了稀疏临近支持向量机模型(SPSVM),从而提高分类器的特征选择能力。然而带有$ell_0$-范数正则项的问题往往是NP-难问题,为了克服这一问题,采用非凸连续函数近似$ell_0$-范数,并通过适当的DC分解将问题转化成DC规划问题进行求解,同时还讨论了算法的收敛性。数值实验结果表明不论是在仿真数据还是在实际数据中,所提出的方法是比较有效稳定的。 相似文献
13.
Airbnb是全球最大的旅游房屋租赁平台之一。本文综合利用多种机器学习方法,基于房源本身的特征、房源的位置、设施与服务、租赁规则、房东的特征和房源的声誉这六类解释变量对北京市Airbnb房源价格进行了预测,并探讨了六类解释变量对房源价格的影响。发现:(a)六类变量中房源本身的特征对房源价格的影响最大。(b)非线性方法的表现明显优于线性方法。(c)与以往研究发现的Airbnb房源价格与允许即时预定呈负相关关系相反,北京市允许即时预订的房源价格高于不允许即时预订的房源。(d)房源容量、房间类型以及房源与市中心的距离是最重要的影响因素。本文为Airbnb房源定价研究提供了新的视角,同时有利于Airbnb房东更好地为其房源设置价格,作者从理论和实践的角度作出了可能的解释。 相似文献
14.
不平衡数据的企业财务预警模型研究 总被引:1,自引:0,他引:1
在股票市场中,由于被评为"ST"的公司数量远远少于普通的公司,所以用于训练财务预警模型的数据有着严重的不平衡性。而一般的分类模型如logistic回归等并不具备处理不平衡数据的能力。本文应用加权L1正则化支持向量机(w-L1SVM)构建一个可以处理不平衡数据的财务预警模型:一方面,w-L1SVM通过对两类样本的损失函数进行加权处理,有效地解决了样本不平衡性带来的预测精度问题;另一方面,w-L1SVM通过引入LASSO罚,使得模型在训练的过程中可以直接进行特征选择。通过数值模拟,本文验证了w-L1SVM在非平衡数据分类问题中的预测和特征选择表现。在实证研究中,本文针对我国股票市场机械、设备、仪表板块中的上市公司构建了一个基于w-L1SVM的财务预警模型,结果显示基于w-L1SVM的财务预警模型可以有效选择重要的财务指标并预测被评为"ST"的公司,并且其预测效果显著优于非加权的传统模型,这充分说明了w-L1SVM在财务预警问题中的适用性。 相似文献
15.
16.
17.
基于高斯RBF核支持向量机预测棉花商品期货主力和次主力合约协整关系的价差序列,确定最优SVM参数,并选择合适的开平仓阈值,进行同品种跨期套利.再与多项式核支持向量机套利结果对比,得到在所有开平仓阈值上,基于高斯RBF核支持向量机套利的收益率都明显高于多项式核支持向量机套利的收益率. 相似文献
18.
We address the problem of discriminating between two finite point sets
in the n-dimensional space by h hyperplanes generating a convex polyhedron. If the intersection of the convex hull of
is empty, the two sets can be strictly separated (polyhedral separability). We introduce an error function which is piecewise linear, but not convex nor concave, and define a descent procedure based on the iterative solution of the LP descent direction finding subproblems. 相似文献
19.
Feature Selection (FS) is an important pre-processing step in data mining and classification tasks. The aim of FS is to select a small subset of most important and discriminative features. All the traditional feature selection methods assume that the entire input feature set is available from the beginning. However, online streaming features (OSF) are an integral part of many real-world applications. In OSF, the number of training examples is fixed while the number of features grows with time as new features stream in. A critical challenge for online streaming feature selection (OSFS) is the unavailability of the entire feature set before learning starts. Several efforts have been made to address the OSFS problem, however they all need some prior knowledge about the entire feature space to select informative features. In this paper, the OSFS problem is considered from the rough sets (RS) perspective and a new OSFS algorithm, called OS-NRRSAR-SA, is proposed. The main motivation for this consideration is that RS-based data mining does not require any domain knowledge other than the given dataset. The proposed algorithm uses the classical significance analysis concepts in RS theory to control the unknown feature space in OSFS problems. This algorithm is evaluated extensively on several high-dimensional datasets in terms of compactness, classification accuracy, run-time, and robustness against noises. Experimental results demonstrate that the algorithm achieves better results than existing OSFS algorithms, in every way. 相似文献
20.
数学最优化是以数学的方式来刻画和找出问题最优解的一门学科.机器学习利用数据构造预测方法,并对这些方法进行研究.介绍了机器学习中与支持向量机和稀疏重构相关的最优化模型.在此基础上,给出了三个典型最优化模型的对偶问题,并详细地讨论了对偶在求解这些问题中的应用. 相似文献