共查询到19条相似文献,搜索用时 56 毫秒
1.
特征选取的目的是为了减少分类规则中不必要的特征数.在启发式特征选取方法中,特征是用必要性来测量的.在文献中,粗糙集被用于定义特征的必要性.本文提出一种新的基于粗糙集的特征选取方法-带参数的平均支持启发式方法,该方法考虑潜在规则集的整体质量,选择具有高平均支持数规则的特征.此外,它还带有参数用于调整近似度.最后,通过实例分析说明该方法是有效的. 相似文献
2.
3.
特征选择是数据挖掘过程中的重要环节。RoughSet是一种新的处理不精确、不完全与不相容知识的数学理论[1],近年来该理论在机器学习、数据挖掘及模式识别等多个领域得到了广泛的应用[2,3]。特征选择为粗糙集理论研究的重要内容。特征选择即属性约简问题被证明为一个NP问题,前人在属性约简问题上做了大量工作。 相似文献
4.
在传统二进制编码遗传算法(GA)的基础上,提出一种基于Rough集的启发式人工选择算子和人工选择算法。利用粗糙集对遗传算法的历史数据进行分析,发现重要基因位,获得重要模式信息,并以此为启发式信息,选择优秀模式进行人工育种,从而对复杂优化问题进行有效求解。采用该算法对典型测试函数进行了验证,算例结果表明,人工选择算法加速了常规遗传算法进化速度,提高了收敛效率。 相似文献
5.
一种改进的基于粗糙集的启发式值约简算法 总被引:1,自引:0,他引:1
金海波 《太原科技大学学报》2010,31(3):181-184
在求得决策表中属性值核的基础上,用属性重要度指导增加后续属性值,还引入包含度和支持度统计度量,生成了不同置信度水平下的决策规则集,并设计了基于规则集的分类算法。对Monk数据集的对比实验表明,该算法是有效的。 相似文献
6.
一种改进的粗糙集属性约简启发式算法 总被引:43,自引:0,他引:43
提出了一种改进的属性约简启发式算法 ,讨论了启发式信息的构造 .通过两个反例证明了现有的两种属性重要度定义 (基于属性依赖度的定义和基于信息熵的定义 )的不完备性 ,提出了一种加权平均的属性重要度定义 ;在此基础上构造了两种启发式算法 .通过 UCI机器学习数据库中的几个实例验证了此算法的有效性 相似文献
7.
一种基于粗糙集理论的启发式分类规则挖掘算法 总被引:1,自引:0,他引:1
粗糙集理论是一种新的数据挖掘算法,文章以属性依赖重要性作为启发信息提出了一种新的属性约简算法,且加入了一定的分类正确度。最后通过一个实例完整演示了本方法,证实其有效性。 相似文献
8.
针对不完整决策系统属性约简算法时间复杂度较高问题,基于正域不变条件下,决策系统分类能力保持不变原则,提出不完整决策系统前向顺序特征选择算法.该算法从约简集为空集开始,根据在约简集合中加入各属性后对正域影响程度大小将属性降序排列,采用顺序前向搜索,选择当前最佳特征加入特征约简集合,确定最佳特征子集.将该算法扩展到基于邻域... 相似文献
9.
在开放动态环境中,在线流特征选择是降低特征空间维度的有效方法 .现有的在线流特征选择算法能够有效地选择一个较优的特征子集,然而,这些算法忽略了类别中可能存在的层次结构.基于此,提出基于层次类别邻域粗糙集的在线流特征选择算法:首先,在邻域粗糙集中引入层次最近异类的邻域关系,避免邻域粒度的选择,借助层次结构计算特征对标记的层次依赖度,推广邻域粗糙集模型以适应层次类别数据;其次,基于层次依赖度提出三个在线特征评价函数,设计了在线相关选择、在线重要度计算和在线冗余更新的层次特征选择框架;最后,在六个层次类别数据集和八个扁平单标记数据集上的实验表明,提出的算法优于现有最先进的在线流特征选择算法. 相似文献
10.
传统的肿瘤基因选择算法挑选出的特征基因中存在大量噪声基因和冗余基因,从而对基因算法的准确性和分类精度产生影响.针对这一问题,将K-S检验与邻域粗糙集融合成为一种新的特征选择方法.首先,采用累积分布函数计算正负类样本的累积函数值和K-S检验统计量,对照显著性水平下的样本统计量,从而去除冗余基因和噪声基因;然后,使用邻域粗糙集进行约简,对比条件属性重要度得出最优约简结果;最后,对比K-S检验和两种基于K-S检验的特征选择方法得到的冗余度和分类精度,通过实验验证这种方法不仅能准确挑选出具有显著区分能力的肿瘤基因,且效率高具有可行性. 相似文献
11.
12.
基于Rough Set理论中的不可分辨性原理,给出两个新的定义属性的最大区分值(Maximum Dis-cernibility Value,MDV)和属性冗余度(Attribute Redundancy Rate,ARR)。在数据预处理阶段,属性的MDV数值用于确定关于自组织映射网络SOM输出单元数量的启发式搜索策略;属性冗余度则用于衡量属性约简结果的信息冗余程度,并以此作为优化SOM网络输出层结构的依据。不依赖于领域经验知识,建立了MDV、SOM、ARR的组合算法模型,实现了Rough Set理论中连续属性的自动离散化计算,并明显提高了属性约简的速度。最后,通过项目实例对全过程进行有效验证。 相似文献
13.
K最近邻算法(KNN)被认为是向量空间模型下最好的分类算法之一,在准确率和召回率方面比较出众,但随着样本数量的增加其相似度计算开销很大。本文提出一种改进算法RS-KNN,主要是利用粗糙集的相关理论,计算训练样本集中各样本子类的上近似空间和下近似空间,根据待分类文本出现在不同的近似空间,以缩减与待分类样本计算相似度的训练样本个数。实验表明此算法能够有效地降低分类计算开销。 相似文献
14.
15.
16.
粗集中属性约简的一种启发式遗传算法 总被引:24,自引:1,他引:24
为了获得决策系统中属性最小相对约简,将信息论角度定义的属性重要性度量作为启发式信息引入遗传算法,提出了一种启发式遗传算法。通过构造一个新的算子来引入启发式信息,使得选择的属性子集的分类能力不变。该算子体现了一种利用启发式信息的局部搜索技术,使得算法既保持整体优化特性,又具有较快的收敛速度。从理论上对算法作了分析,对新算子所能选择属性子集的分类能力不变作了证明。最后的实例表明,该算法能有效地对决策系统进行最大程度的约简。 相似文献
17.
结合高压输电线路远程监测系统,在参考粗糙集理论的基础上,结合粗糙熵相关知识,针对复杂系统故障影响因子的特点,提出了一种属性约简算法,最后得出相应的算法规则,解决了复杂信息数据简化的问题。实例证明,该算法是可行的。 相似文献
18.
一种改进的互信息特征选取预处理算法 总被引:3,自引:1,他引:3
讨论了基于互信息的特征选取算法在文本分类中的性能问题,分析了利用这种特征选取算法存在分类精度不高的原因,认为互信息为负值的特征在分类中具有很重要的作用.在此基础上提出了一种基于互信息特征选取的改进算法,该算法加强了互信息为负值的特征在分类中的作用.实验结果表明,改进后的算法可以有效地提高文本分类精度。 相似文献
19.
提出了一种新型的决策规则约简方法。基于均匀划分和正态分布隶属度函数,对决策表的连续属性进行模糊化,用欧氏距离贴近度来构建相似矩阵,并提出了一种论域的模糊划分算法;依据粗糙集隶属度进行属性约简的基础上,给出了一种决策规则约简算法,从而达到发掘知识并简化知识的目的。 相似文献