首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 74 毫秒
1.
吴信东  赵银凤  李磊 《电子学报》2016,44(9):2074-2080
多标签分类在基因分类,药物发现和文本分类等实际问题中有着广泛的应用.已存在的多标签分类算法,通常都是从网络中随机的选取节点作为训练集.然而,在分类算法执行的过程中,网络中不同节点所起的作用不同.在给定训练集数目的情况下,选择的训练集不同,分类精度也会不同.所以我们引入了种子节点的概念,标签分类从种子节点开始,经过不断推理,得到网络中其他所有节点的标签.本文提出了SHDA(Nodes Selection of High Degree from Each Affiliation)算法,即从网络的每个社团中,按比例的选取度数较大的节点,然后将其合并,处理后得到种子节点.真实数据集上的实验表明,将种子节点用作训练集进行多标签分类,能够提升网络环境下多标签分类的准确率.  相似文献   

2.
随着社交网络规模的不断扩大,网络节点的标签分类也不再单一,变得丰富多样,这些促使了社交网络中的多标签分类问题成为一个重要的研究领域。以前的研究重点主要集中在提高预测网络节点标签的精度上,而忽略了得到节点信息所产生的包含时间消耗和计算资源等在内的系统开销问题。可现如今随着网络规模不断扩大且复杂性不断增强,之前所忽略的系统开销问题变得越来越严重,增加了预测标签的成本,加重了预测网络节点标签的难度。该文针对这一问题提出了基于NSGA2算法的网络环境下多标签种子节点选择算法(NAMESEA算法),目的是在能大大降低预测节点标签所消耗的系统开销的前提下一定程度上提高预测标签的精度。该文将NAMESEA算法与其他多标签预测算法在多个真实数据集上进行实验对比,结果证明NAMESEA算法大大降低了预测节点标签的系统开销并且提高了预测精度。  相似文献   

3.
多标签分类已在很多领域得到了实际应用,所用标签大多具有很强的关联性,甚至存在非完备标签或部分标签遗失。然而,现有的多标签分类算法难以同时处理这两种情况。基于此,提出一种新的概率模型处理方法,实现同时对具有标签关联性和遗失标签情况进行多标签分类。该方法可以自动获知和掌握多标签的关联性。此外,通过整合遗失的标签信息,该方法能够提供一个自适应策略来处理遗失的标签。在完备标签和非完备标签的数据上进行实验,结果表明,与现有的多标签分类算法相比,提出的方法得到了较好的分类预测评价值。  相似文献   

4.
基于标签关联的多标签演化超网络   总被引:1,自引:0,他引:1       下载免费PDF全文
王进  刘彬  孙开伟  陈乔松  邓欣 《电子学报》2018,46(4):1012-1018
针对多标签学习中如何有效挖掘利用高阶标签关联的问题,提出了一种基于标签关联的多标签演化超网络模型.该模型通过输入任意多标签学习方法的预测结果,利用超边表征挖掘高阶标签关联,并综合标签关联和特征信息作为最终的预测结果.与3种传统多标签学习方法在6个多标签数据集上的对比实验表明,本文提出模型不仅能够有效提升多个传统多标签学习方法的性能,而且能够提供具有良好可读性的学习结果.  相似文献   

5.
指令分类可有效识别出指令的类别并提取出指令中的关键信息,有助于编译器开发人员快速构建编译器后端指令相关的代码,降低时间成本。针对传统文本分类模型的不足,研究提出基于BERT预训练模型的指令描述文本分类方法。经过数据清洗、预处理,在BERT预训练模型基础上,研究构建了文本多标签分类模型,实验结果表明,本文提出的方法对指令文本有较好的分类效果。  相似文献   

6.
传统的文本分类一般采用单标签形式,但现实生活中多标签文本比单标签文本具有更广泛的应用场景.本文提出一种BiGRU-Capsule模型的多标签文本分类方法,该方法首先通过嵌入层将输入的文本序列转化为向量表示;然后通过BiGRU和Capsule提取文本特征;最后使用sigmoid分类器进行分类.为确保数据量足够,利用今日头...  相似文献   

7.
针对传统多标签图像分类模型存在难以生成更接近相关标签的高层图像特征,以及因未能利用标签之间的视觉相关性而导致的识别精度不够高等问题,提出了一种基于空间注意力与图卷积的多标签图像分类算法.首先,利用图卷积网络学习标签邻接图特征和使用GLOVE算法,从标签序列获取的标签嵌入;其次,在高层语义信息中引入改进的空间注意力网络以...  相似文献   

8.
随着“十四五”规划提出要保护和激励国内产生更多高价值专利,各类跨学科、跨领域的创新型专利申请量激增,专利自动分类方法辅助人工分类的需求日益增长.目前,中文专利分类主要由审查员根据提交的专利内容,与国际专利分类体系表进行人工匹配来确定所属分类,人工效率低.已有的专利自动分类方法主要从专利中提取文本结构特征和语义特征,将两...  相似文献   

9.
针对当前多标签文本分类模型在标签语义信息利用过程中存在文本特征提取不充分、文本特征信息丢失的问题,提出了一种改进标签语义信息嵌入的多标签文本分类模型(label embedding multi label text classifi cation,LEMLTC).首先利用BERT将待分类文本和标签嵌入成向量,接着将标签...  相似文献   

10.
李晓 《电子测试》2014,(23):25-27
在自然语言文本分类处理领域中,各种主流的多标签分类方法都只能使文本具有多个标签类别,但并不能识别哪个标签对使用者来说最重要,哪些标签次重要。本文以文本信息为研究对象,通过对几种主流多标签分类算法原理的研究分析,提出了能识别主、次标签的多标签文本分类方法 -具有主次标签的多标签分类方法(Multi-Labels Text Classifier with Primary and Secondary Labels:MLTCPSL)。  相似文献   

11.
该文基于稀疏编码和集成学习提出了一种新的多示例多标记图像分类方法。首先,利用训练包中所有示例学习一个字典,根据该字典计算示例的稀疏编码系数;然后基于每个包中所有示例的稀疏编码系数计算包特征向量,从而将多示例多标记问题转化为多标记问题;最后利用多标记分类算法进行求解。为了提高分类器的泛化能力,对多个分类器进行集成。在多示例多标记图像数据集上的实验结果表明所提方法与其它方法相比有更好的性能。  相似文献   

12.
Automatic image annotation has emerged as an important research topic. From the perspective of machine learning, the annotation task fits both multiinstance and multi-label learning framework due to the fact that an image is composed of multiple regions, and is associated with multiple keywords as well. In this paper, we propose a novel Semi-supervised multi-instance multi-label (SSMIML) learning framework, which aims at taking full advantage of both labeled and unlabeled data to address the annotation problem. Specifically, a reinforced diverse density algorithm is applied firstly to select the Instance prototypes (IPs) with respect to a given keyword from both positive and unlabeled bags. Then, the selected IPs are modeled using the Gaussian mixture model (GMM) in order to reflect the semantic class density distribution. Furthermore, based on the class distribution for a keyword, both positive and unlabeled bags are redefined using a novel feature mapping strategy. Thus, each bag can be represented by one fixed-length feature vector so that the manifold-ranking algorithm can be used subsequently to propagate the corresponding label from positive bags to unlabeled bags directly. Experiments on the Corel data set show that the proposed method outperforms most existing image annotation algorithms.  相似文献   

13.
14.
在伪最近邻(PNN)分类算法中,待分类样本点与每一类样本集中各个近邻的距离加权系数都是主观确定的,这就使得算法得不到最优距离加权值。针对这一问题,该文提出一种基于BP神经网络的自适应伪最近邻分类算法。首先通过计算待分类样本点与每一类样本集中各个近邻的距离值,并将其作为BP神经网络的输入。然后根据BP神经网络输入与输出之间的映射来自适应确定相应的距离加权值。最后由BP神经网络的输出值判别样本类别号。实验结果表明,该算法能够自适应地调节距离加权系数,同时还能有效地改善分类准确率。  相似文献   

15.
针对网络舆情数据存在数据量大、分散度高、数据非结构化等特点,而常用的文本分类算法难以实现对网络舆情快速、准确分类的问题,因此提出一种基于Hadoop平台的并行kNN网络舆情分类算法,利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题.对并行kNN算法进行分类能力和分类效率进行测试验证,实验结果表明,基于Hadoop平台的并行kNN网络舆情分类算法在处理大批量网络舆情数据时,能够快速、高效和准确对网络舆情数据进行分类.  相似文献   

16.
盛凯  刘忠  周德超  魏启航  冯成旭 《电子学报》2018,46(11):2642-2649
为了提高多类半监督分类的性能,提出了一种基于证据理论的多类协同森林算法(DSM-Co-Forest).首先,通过"多对多"模式将有标记的多类数据随机拆分为多个二类数据集,并以此训练二类基分类器;然后,利用多个基分类器同时对未标记样本进行预测,并利用证据组合算法挑选出可信度较高的未标记样本;最后,将高可信度的未标记样本加入到原训练样本中,以迭代更新其他的基分类器,从而提高分类器的整体性能.通过在一些公共数据集上进行实验,并与其他半监督分类算法进行对比,验证了所提算法的可行性和有效性.  相似文献   

17.
Packet classification is a critical data-plane task for modern routers to support value-added services, especially for those requiring QoS and flow based processing. However, classification at 10Gbps or higher using an algorithmic approach is still challenging. New generation of Network processor unit (NPU) provides unprecedented processing power for network applications, and it opens a new venture to explore thread-level parallelism for attacking networking performance bottlenecks. This paper studies the implementation issues of how an adaptive clas- sification algorithm can be efflciently implemented on a multi-core and multithreaded NPU architecture. Our algorithm combines best traits of Recursive flow classification (RFC) algorithm and bitmap compression technique to achieve deterministic classification performance while keeping the memory growth checked. When mapping such an algorithm onto the Intel IXP network processor, we consider the characteristic of IXP architecture early in the algorithm-design phase to eliminate the potential perfor- mance bottlenecks. The implemented algorithm is highly efflcient and it can run at 10Gbps speed or higher on a real IXP2800 chip.  相似文献   

18.
刘锋  白凡 《电子技术》2010,47(7):30-31
K近邻(k-Nearest Neighbor)算法是进行分类时最常用的文本分类算法,基本的K近邻算法是基于余弦向量距离计算相似度,由于特证词权值的计算采用的是TF-IDF方法,使得该算法在文本分类中对于噪声特征非常敏感,本文针对这一问题,提出在网页分类的领域中,根据网页文章的特性,考虑特征词出现不同位置,改进相似度的计算公式,实验证明,提高了分类的准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号