期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

郭淼霞《莆田高等专科学校学报》2011,(5):82-86

讨论了网页分类过程中数据预处理的相关技术,提出一种网页预处理方法,将网页解析为DOM树结构,通过分析、整理,得到噪音信息的特征,并依据判定规则,找出噪音信息并删除处理。网页去噪后,提取页面中的文本信息和每个相关链接目标URL、源URL及锚文本并存入数据库。实验结果证明,该去噪方法可以有效去除网页噪音,利用所提取的超链接结构信息分类网页,可以有效提高分类精度。相似文献

2.

基于本体的文本自动分类

《科技信息》2008,(29)

随着计算机技术的发展,各个领域的信息层出不穷,使得文本分类显得十分重要。针对当前文本分类存在的不足,提出了基于本体的文本自动分类方法。该方法将文本自动分类技术与本体技术相结合,并提出只从提取每段首尾句中提取特征词的方法,提高了文本自动分类的效率。相似文献

3.

稀疏自动编码器在文本分类中的应用研究

秦胜君《科学技术与工程》2013,13(31)

传统的文本分类算法都是采用期望交叉熵、信息增益和互信息等统计方法,通过设置阈值获取特征集,如果训练集的数据量较大,则容易出现特征项不明确,特征信息丢失等缺陷,为解决上述问题,提出运用“深度学习”中的稀疏自动编码器算法自动提取文本特征,然后结合深度置信网络形成SD算法进行文本分类。实验表明,在训练集较少的情况下,SD算法的分类性能低于传统的支持向量机,但是在处理高维数据时,SD算法则比支持向量机具有较高的准确率和召回率。相似文献

4.

关于文本自动分类算法的研究——以档案自动归类的应用为例

牟尧李曦《中国西部科技》2011,10(24):49-51

关于文本自动分类算法,理论界对此有很多的研究,本文详细介绍了一种新的分类算法:多因素加权归类算法,并对此算法在档案自动归类中的应用做了具体的阐述。文章主要讲述了三个方面的内容:分类词库的构造、分类用词的切分算法以及多因素加权归类算法。相似文献

5.

Boosting算法在文本自动分类中的应用 总被引：7，自引：0，他引：7

下载免费PDF全文

肖江张亚非《解放军理工大学学报(自然科学版)》2003,4(2):25-28

随着网络信息的迅猛发展，如何快捷、准确地识别和获取有用信息显得更为重要。文本自动分类系统是信息处理的重要研究方向，它是指在给定的分类体系下，根据文本的内容自动判别文本类别的过程。Boosting算法是一种新兴的机器学习算法。在文本分类中应用Boosting算法经过试验证明是有效的，并且优于目前的大多数分类算法。相似文献

6.

基于HTML/XML方式的自动评卷系统 总被引：3，自引：0，他引：3

刘家宁《华南理工大学学报(自然科学版)》2003,31(6):64-66

研究了现有的计算机考试中主观题考试的自动评卷问题，提出将考试题目转换成HTML／XML格式的文本文件，再进行评判的技术思路，不仅扩展评判范围，而互便于制作特征值的系统解决方案．同时给出系统的体系结构、设计与实现方法．相似文献

7.

基于HTML Parser的网页信息提取技术研究

珠杰罗潘《西藏大学学报》2010,(3):41-44

在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。相似文献

8.

基于Web的新闻文本分类技术的研究 总被引：1，自引：0，他引：1

胡凌云胡桂兰徐勇李龙澍《安徽大学学报(自然科学版)》2010,34(6)

从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题.针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现框架.实验结果表明,基于KNN算法的分类系统具有较好的分类效果. 相似文献

9.

网络舆情中的信息预处理与自动摘要算法 总被引：1，自引：0，他引：1

廉捷刘云《北京交通大学学报(自然科学版)》2010,34(5):94-99

提出了一套从互联网原始数据中提取有效信息,利用网页模版对这些信息进行格式化整理,并依据网络舆情的特点对正文信息进行自动摘要处理,在自动摘要处理过程中引入倒排索引概念简化了算法复杂度,基于关键词的权重分析保证了算法能够更准确的找到人们关心的信息.测试结果支持了本文提出的算法. 相似文献

10.

网页文本分类中的特征选择研究

庞宁杨尔弘《太原科技大学学报》2007,28(4):279-281

由于超链接语言结构本身所提供的信息,网页分类问题不同于一般的文本分类。本文分析了网页内部特征,并在1000篇网页规模语料库的基础上,通过试验对比了三种特征选择方法对高维特征向量空间进行降维的效果。文章还提出了一种新方法,根据特征项所处的位置赋予不同权重的方法,实验表明这种由文本结构导出的权重计算方法能够取得很好的分类效果。相似文献

11.

逻辑表达式的汉字全文检索研究与探讨

张建国陈素娥《太原科技》2006,(6):86-87

利用计算机及其软件,网络技术和网络应用开发软件,对单个网站汉字文章的检索及其原理,多个网站汉字文章的检索及其原理,即时检索结果的分发问题和原理,定期检索结果的分发和原理,逻辑表达式检索的解析和原理等,进行了研究和探讨。相似文献

12.

多维标度法在EDXRF分析自动分类中的应用

倪艳《四川理工学院学报(自然科学版)》2008,21(2):115-117

文章以攀枝花87个矿区的土壤和区内水系沉积物重金属污染元素(As、Pb、Cu、Cd、Zn、Ni、Cr等)的EDXRF测量为研究对象,通过多维标度法实现对复杂样品的自动分类,并取得了满意的效果。相似文献

13.

基于SVM的车型分类方法研究

陈胜李勃吕凤花《贵州大学学报(自然科学版)》2012,29(1):79-82

随着图像处理和人工智能的发展,智能交通系统将会广泛的应用于现实生活中,而对智能交通系统中车型的自动分类方法将越来越繁多。本文结合支持向量机方法,提出一种基于图像处理的自动车型分类系统。并通过matlab实验平台设计了分类器,对所提供的车型图像实现自动分类,取得了较为满意的实验结果。相似文献

14.

基于模糊神经网络算法的自动分类系统设计

张丽娜姜新华《内蒙古师范大学学报(自然科学版)》2008,37(1):75-78,82

介绍了基于模糊神经网络算法的塑料饮料瓶自动分类系统,包括算法设计和系统实现.系统根据各种塑料饮料瓶的颜色特性信息,迅速、准确地将饮料瓶按不同颜色进行自动分类,从而实现生产过程的自动化. 相似文献

15.

基于HTML Parser的网页信息提取技术研究 总被引：1，自引：0，他引：1

珠杰罗潘《西藏大学学报》2010,25(1)

在互联网上信息量激增,迫切需要一些自动化工具帮助人们在海量信息源中迅速找到真正需要的信息。文章基于开源项目HTMLParser包,以提取中关村笔记本频道产品信息的文本信息和图片信息为例,提出了信息提取系统设计方案,给出了文字信息和图片信息提取算法。相似文献

16.

一种自动指纹粗分类算法的研究

下载免费PDF全文

朱磊张雄伟《解放军理工大学学报(自然科学版)》2002,3(5):1-5

提出了一种利用指纹图像奇异点的数目和位置进行粗分类的算法。指纹图像大致可分为拱形、尖拱形、左旋形、右旋形和螺纹形5种，对指纹的粗分类是实现指纹自动识别系统的一个重要步骤。首先介绍了一种计算指纹图像中各个像素点的方向矢量的算法，然后详细讨论了在这个算法所获得的指纹方向图上进行平滑处理、提取奇异点对（核心点－三角点对）的算法，并根据奇异点对的数目和位置进行指纹方向图的粗分类。试验结果表明，有用的算法与Kalle的算法相比，具有较高的分类率，具有实用意义。相似文献

17.

基于聚类和分类的个性化文章自动推荐系统的研究

赵鹏耿焕同王清毅蔡庆生《南京大学学报(自然科学版)》2006,42(5):512-518

由于缺乏足够的反映用户兴趣的知识,以及巨大的在线计算量,导致互联网上现有文章自动推荐系统普遍存在盲目性和低效性的问题.针对以上问题,提出了一种基于聚类和分类的个性化文章自动推荐系统,利用机器学习的方法隐式地获取用户模型,并根据用户模型为用户提供个性化的文章自动推荐服务.该系统包括离线用户模型及用户群获取子系统和在线个性化文章推荐子系统两大部分,前者对文章进行聚类形成聚类兴趣点,构建基于聚类兴趣点的用户模型,并根据用户兴趣聚类形成各兴趣点的用户群;后者对待推荐文章进行分类,搜索到其所属的兴趣点,向该兴趣点的用户群进行主动推荐.理论分析和实验结果表明,该系统能够显著提高有效性和在线响应速度.所述的设计思想和技术也适用于其它互联网个性化信息自动推荐系统. 相似文献

18.

融合双通道音节特征的藏文La格例句自动分类模型

班玛宝才让加张瑞色差甲卓玛扎西《北京大学学报(自然科学版)》2022,58(1):91-98

基于藏文La格(??????)例句的自动分类在藏语自然语言处理领域的重要性,根据藏文La格的用法和添接规则,在对藏文La格例句进行分类并定义分类概念的基础上,提出一种融合双通道音节特征的藏文La格例句自动分类模型.该模型首先使用word2vec和Glove构建双通道藏文音节嵌入,分别在每路卷积中融合双通道音节特征,丰富... 相似文献

19.

基于HTML5的EX-DRM Web离线应用系统 总被引：2，自引：0，他引：2

欧少闽龚明龙朱凌枫侯晓利蔡伟鸿《汕头大学学报(自然科学版)》2011,26(4):58-65,72

结合数字版权保护服务一体化运营平台(EX-DRM)的Web离线应用需求及HTML5的特性,对比现有Web离线应用的优缺点,提出并实现一种安全、高效的基于HTML5的EX-DRM Web离线应用系统,不仅保证了浏览器的简洁性,又能获得更好的用户体验,完善了日益强化的Web应用开发,为现有基于Web的离线应用提供了一种高效、简洁、安全和可行的解决方案. 相似文献