首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
讨论了网页分类过程中数据预处理的相关技术,提出一种网页预处理方法,将网页解析为DOM树结构,通过分析、整理,得到噪音信息的特征,并依据判定规则,找出噪音信息并删除处理。网页去噪后,提取页面中的文本信息和每个相关链接目标URL、源URL及锚文本并存入数据库。实验结果证明,该去噪方法可以有效去除网页噪音,利用所提取的超链接结构信息分类网页,可以有效提高分类精度。  相似文献   

2.
随着计算机技术的发展,各个领域的信息层出不穷,使得文本分类显得十分重要。针对当前文本分类存在的不足,提出了基于本体的文本自动分类方法。该方法将文本自动分类技术与本体技术相结合,并提出只从提取每段首尾句中提取特征词的方法,提高了文本自动分类的效率。  相似文献   

3.
传统的文本分类算法都是采用期望交叉熵、信息增益和互信息等统计方法,通过设置阈值获取特征集,如果训练集的数据量较大,则容易出现特征项不明确,特征信息丢失等缺陷,为解决上述问题,提出运用“深度学习”中的稀疏自动编码器算法自动提取文本特征,然后结合深度置信网络形成SD算法进行文本分类。实验表明,在训练集较少的情况下,SD算法的分类性能低于传统的支持向量机,但是在处理高维数据时,SD算法则比支持向量机具有较高的准确率和召回率。  相似文献   

4.
牟尧  李曦 《中国西部科技》2011,10(24):49-51
关于文本自动分类算法,理论界对此有很多的研究,本文详细介绍了一种新的分类算法:多因素加权归类算法,并对此算法在档案自动归类中的应用做了具体的阐述。文章主要讲述了三个方面的内容:分类词库的构造、分类用词的切分算法以及多因素加权归类算法。  相似文献   

5.
Boosting算法在文本自动分类中的应用   总被引:7,自引:0,他引:7       下载免费PDF全文
随着网络信息的迅猛发展,如何快捷、准确地识别和获取有用信息显得更为重要。文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。Boosting算法是一种新兴的机器学习算法。在文本分类中应用Boosting算法经过试验证明是有效的,并且优于目前的大多数分类算法。  相似文献   

6.
基于HTML/XML方式的自动评卷系统   总被引:3,自引:0,他引:3  
研究了现有的计算机考试中主观题考试的自动评卷问题,提出将考试题目转换成HTML/XML格式的文本文件,再进行评判的技术思路,不仅扩展评判范围,而互便于制作特征值的系统解决方案.同时给出系统的体系结构、设计与实现方法.  相似文献   

7.
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。  相似文献   

8.
基于Web的新闻文本分类技术的研究   总被引:1,自引:0,他引:1  
从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题.针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现框架.实验结果表明,基于KNN算法的分类系统具有较好的分类效果.  相似文献   

9.
网络舆情中的信息预处理与自动摘要算法   总被引:1,自引:0,他引:1  
提出了一套从互联网原始数据中提取有效信息,利用网页模版对这些信息进行格式化整理,并依据网络舆情的特点对正文信息进行自动摘要处理,在自动摘要处理过程中引入倒排索引概念简化了算法复杂度,基于关键词的权重分析保证了算法能够更准确的找到人们关心的信息.测试结果支持了本文提出的算法.  相似文献   

10.
由于超链接语言结构本身所提供的信息,网页分类问题不同于一般的文本分类。本文分析了网页内部特征,并在1000篇网页规模语料库的基础上,通过试验对比了三种特征选择方法对高维特征向量空间进行降维的效果。文章还提出了一种新方法,根据特征项所处的位置赋予不同权重的方法,实验表明这种由文本结构导出的权重计算方法能够取得很好的分类效果。  相似文献   

11.
利用计算机及其软件,网络技术和网络应用开发软件,对单个网站汉字文章的检索及其原理,多个网站汉字文章的检索及其原理,即时检索结果的分发问题和原理,定期检索结果的分发和原理,逻辑表达式检索的解析和原理等,进行了研究和探讨。  相似文献   

12.
文章以攀枝花87个矿区的土壤和区内水系沉积物重金属污染元素(As、Pb、Cu、Cd、Zn、Ni、Cr等)的EDXRF测量为研究对象,通过多维标度法实现对复杂样品的自动分类,并取得了满意的效果。  相似文献   

13.
随着图像处理和人工智能的发展,智能交通系统将会广泛的应用于现实生活中,而对智能交通系统中车型的自动分类方法将越来越繁多。本文结合支持向量机方法,提出一种基于图像处理的自动车型分类系统。并通过matlab实验平台设计了分类器,对所提供的车型图像实现自动分类,取得了较为满意的实验结果。  相似文献   

14.
介绍了基于模糊神经网络算法的塑料饮料瓶自动分类系统,包括算法设计和系统实现.系统根据各种塑料饮料瓶的颜色特性信息,迅速、准确地将饮料瓶按不同颜色进行自动分类,从而实现生产过程的自动化.  相似文献   

15.
基于HTML Parser的网页信息提取技术研究   总被引:1,自引:0,他引:1  
在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。  相似文献   

16.
提出了一种利用指纹图像奇异点的数目和位置进行粗分类的算法。指纹图像大致可分为拱形、尖拱形、左旋形、右旋形和螺纹形5种,对指纹的粗分类是实现指纹自动识别系统的一个重要步骤。首先介绍了一种计算指纹图像中各个像素点的方向矢量的算法,然后详细讨论了在这个算法所获得的指纹方向图上进行平滑处理、提取奇异点对(核心点-三角点对)的算法,并根据奇异点对的数目和位置进行指纹方向图的粗分类。试验结果表明,有用的算法与Kalle的算法相比,具有较高的分类率,具有实用意义。  相似文献   

17.
由于缺乏足够的反映用户兴趣的知识,以及巨大的在线计算量,导致互联网上现有文章自动推荐系统普遍存在盲目性和低效性的问题.针对以上问题,提出了一种基于聚类和分类的个性化文章自动推荐系统,利用机器学习的方法隐式地获取用户模型,并根据用户模型为用户提供个性化的文章自动推荐服务.该系统包括离线用户模型及用户群获取子系统和在线个性化文章推荐子系统两大部分,前者对文章进行聚类形成聚类兴趣点,构建基于聚类兴趣点的用户模型,并根据用户兴趣聚类形成各兴趣点的用户群;后者对待推荐文章进行分类,搜索到其所属的兴趣点,向该兴趣点的用户群进行主动推荐.理论分析和实验结果表明,该系统能够显著提高有效性和在线响应速度.所述的设计思想和技术也适用于其它互联网个性化信息自动推荐系统.  相似文献   

18.
基于藏文La格(??????)例句的自动分类在藏语自然语言处理领域的重要性,根据藏文La格的用法和添接规则,在对藏文La格例句进行分类并定义分类概念的基础上,提出一种融合双通道音节特征的藏文La格例句自动分类模型.该模型首先使用word2vec和Glove构建双通道藏文音节嵌入,分别在每路卷积中融合双通道音节特征,丰富...  相似文献   

19.
基于HTML5的EX-DRM Web离线应用系统   总被引:2,自引:0,他引:2  
结合数字版权保护服务一体化运营平台(EX-DRM)的Web离线应用需求及HTML5的特性,对比现有Web离线应用的优缺点,提出并实现一种安全、高效的基于HTML5的EX-DRM Web离线应用系统,不仅保证了浏览器的简洁性,又能获得更好的用户体验,完善了日益强化的Web应用开发,为现有基于Web的离线应用提供了一种高效、简洁、安全和可行的解决方案.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号