共查询到17条相似文献,搜索用时 46 毫秒
1.
一种基于粗糙集的文本分类规则抽取方法 总被引:10,自引:0,他引:10
随着文本数据库的日益增大,寻找新的文本数据处理方法变得十分紧迫。本文将粗糙集理论应用于文本自动分类的规则提取,提出了基于粗糙集理论的文本分类方法。把文本特征项的权值进行离散化处理后,作为规则的条件属性,文本所属的类别用作决策属性,构造决策表,然后通过决策表的知识约简算法提取出文本的分类规则。实验结果表明,该方法提取规则的分类正确率较高,分类速度较快。 相似文献
2.
应用粗糙集理论的属性约简和规则约简方法对数据进行分类,并以可靠的数据对该方法进行了实验.结果表明,该方法复杂度低,且能有效提高分类效果. 相似文献
3.
基于属性约简的方法,放弃以往复杂的规则匹配算法,提出将约简后的多种属性组进行析取,筛选特征项,并构造分类器.实验结果表明,此算法不仅简单,还能降低维数和提高分类结果. 相似文献
4.
为了从海量的信息资源库中快速、准确地进行分类并提取出有用的信息,提出了一种基于粗糙集和KNN混合的Web文本分类模型。利用粗糙集的属性约简理论降低了文本分类过程中的向量维数,使用一种基于分明矩阵的属性约简算法,特征选择过程采用互信息量计算方法,并对该混合算法进行了实验,同时结合传统的KNN方法对该混合算法进行比较,验证该算法的可行性。 相似文献
5.
粗糙集理论为研究不精确数据的分析、推理,挖掘数据间的关系、发现潜在的知识提供了有效的工具。在数据挖掘技术中KNN算法是一个实现简单和分类准确性较高的方法,但是,当用于样本容量较大以及特征属性较多的类似医疗图像挖掘这样的领域时,其效率受到了很大的影响,找到一个删除最大冗余属性的方法成了解决这个问题的关键。将粗糙集理论与KNN算法结合起来,用粗糙集方法进行属性约简,有效地解决了KNN算法分类的这个缺点。 相似文献
6.
7.
该文改进了一种粗糙集决策表的值约简算法,并将其应用到文本分类规则的提取中,其生成的规则属性较少,分类准确度较高. 相似文献
8.
多标签文本分类任务存在难以从文本信息中提取标签关联的判别特征,建立标签相关性困难等问题。现有方法主要采用基于RNN的序列生成模型来建立标签高阶相关性,但缺乏对文本语义信息的充分利用。为此文章提出基于Transformer解码器的序列生成模型,使用标签嵌入作为查询,通过其多头自注意力机制建立标签之间的高阶相关性,并利用多头交叉注意力子层从文本信息中自适应地聚合标签相关的关键特征。文章的注意力权重可视化实验表明,序列生成Transformer在建立标签相关性的同时,能够更全面、更深层次地考虑文本和标签之间的语义相关性。与传统RNN类模型相比,序列生成Transformer在分类任务中兼具有效性和可解释性,并在AAPD和SLASHDOT两个数据集上取得了更优的结果。在AAPD数据集上分别取得了70.49%的Instance-F1值和52.04%的Label-F1值,比以往分类效果最好的set-RNN模型分别高1.44%和1.83%。 相似文献
9.
多标签分类中如何有效处理具有许多实例和大量标签的大规模数据集、补偿训练集中缺失标签以及利用未标记实例改进预测性能等问题已成为重要研究方向。提出嵌入式多标签分类(EMC)算法,首先从伪实例参数化的高斯过程(GP)中提取两组随机变换来模拟特征向量、潜在空间表示向量和标签向量之间的非线性关系映射,其次引入一组辅助变量结合专家集成(EEOE)方法补偿缺失标签,最后利用未标记实例学习随机函数的平滑映射提高预测性能。仿真结果表明,与特征识别隐式标签空间编码的多标签分类(FaLE)算法和半监督低秩映射多标签分类(SLRM)算法相比,EMC算法优化了处理大规模数据集、补偿缺失标签及利用未标记数据的能力,从而提高了类标签的预测性能,且具有良好的可扩展性,训练时间短。 相似文献
10.
粗糙集作为数据挖掘工具,主要通过分类数据得到预测型知识,但分类规则过于严格,使得在挖掘带噪音的数据时,挖掘结果可能会损失一些有价值的规则.提出一种带不确定因子的信息系统及相应的分类方法,改进了传统粗糙集的分类方法. 相似文献
11.
王娟 《漳州师范学院学报》2009,22(3):37-42
Web文本分类是Web数据挖掘的一个重要研究方向,它是在通过经验数据训练得到的分类体系下,根据网页的文本内容自动判别网页类别的过程,本文提出一种综合粗糙集与支持向量机的Web文本分类模型,利用粗糙集的属性约简方法,减少支持向量机训练数据的维数,提高Web文本分类的性能与效率. 相似文献
12.
13.
14.
K最近邻算法(KNN)被认为是向量空间模型下最好的分类算法之一,在准确率和召回率方面比较出众,但随着样本数量的增加其相似度计算开销很大。本文提出一种改进算法RS-KNN,主要是利用粗糙集的相关理论,计算训练样本集中各样本子类的上近似空间和下近似空间,根据待分类文本出现在不同的近似空间,以缩减与待分类样本计算相似度的训练样本个数。实验表明此算法能够有效地降低分类计算开销。 相似文献
15.
基于粗糙集与支持向量机的分类算法 总被引:4,自引:1,他引:3
针对高维大样本环境下支持向量机训练算法面临界的耗时增大与维数灾问题,将序列最小优化算法(SMO)与粗糙集(RS)的数据处理功能相结合,提出一种新的基于粗糙集与支持向量机的分类算法RS.SMO.该算法依据属性的重要性对数据集作属性约简,用粗糙边界集法生成类边界集作为SMO的训练子集,使训练集比原始训练集的维数与规模都有一定程度的减少,可构造出具有较好时空性能的算法.实验结果表明,RS-SMO算法能实现结构风险最小化,且性能优于SMO算法. 相似文献
16.
LDA主题模型是一种有效的文本语义信息提取工具,利用在文档层中实现词项的共现,将词项矩阵转化为主题矩阵,得到主题特征;然而在生成文档过程中会蕴含冗余主题。针对LDA主题模型提取主题特征时存在冗余的不足,提出一种基于邻域粗糙集的LDA主题模型约简算法NRS-LDA。利用邻域粗糙集构造主题决策系统,通过预先设定主题个数,计算出每个主题的重要度;根据重要度进行排序,将排序后重要度低的主题删除。将提出的NRS-LDA算法应用于K-means文本聚类问题上并与传统的文本特征提取算法及改进的算法进行比较,结果表明NRS-LDA方法可以得到更高的聚类精度。 相似文献
17.
根据粗糙集理论,提出一种基于决策表相容性的属性约简算法。对一幅经典的天气观测状况决策表进行属性约简,把表示观测状况的各参数作为决策表的属性,运用粗糙集理论对该原始决策表进行约简,以提取天气状况的重要属性,删除分析过程中的冗余属性和属性值,约简后的属性可为决策提供支持。分析表明,粗糙集理论应用于这类决策可得到更清晰、简明的判断规则。 相似文献