首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
网页文本抽取是一种在互联网上运用广泛的数据挖掘技术。主要目的是把一个网页的主题内容抽取出来,为Web数据挖掘提供好的基础数据。本文基于网页树形结构进行改进,首先对网页进行分块,把每一块存储在树形结构当中,然后通过对所有块进行方差和阈值计算,选择出主题信息。该方法相比传统的基于正则表达式的抽取方法, 具有简单, 实用的特点, 实验结果表明, 该抽取方法准确率达到 96%以上, 有一定的实用价值。  相似文献   

2.
基于分块的网页主题文本抽取   总被引:2,自引:2,他引:0  
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块.实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法.  相似文献   

3.
提出了基于条件随机场(conditional random fields,CRF)的网页动态关系抽取算法.给出了动态关系的定义,建立了动态关系的表示模型,并用一个六维结构来表达动态关系.与传统关系抽取中基于规则或者基于分类的解决方法不同,本文认为可以将动态关系识别问题转化为一个标注问题,并提出了基于CRF的句子层面的关系标注和抽取方法.在本算法中,首先将一个句子通过语义角色标注(semantic role labeling,SRL)系统进行成分识别,然后将语义角色标注结果以及词的POS类型、词组的命名实体类型等作为CRF的训练特征,对句子成分进行标注.最后测试了大量的真实新闻网页,实验结果表明了本文提出算法的实用性和有效性.  相似文献   

4.
王平根 《科技信息》2010,(31):I0054-I0054,I0059
动态网页是Internet上重要的网页类型,它们通常是由网站的后台数据库通过某种通用的模板构成。本文在研究DOM技术与网页结构的基础上,根据动态Web页面的特点,提出了一种基于DOM的动态网页信息抽取方法,并描述了利用DOM技术实现动态网页信息抽取的算法。  相似文献   

5.
为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法.  相似文献   

6.
基于条件随机场的中文科研论文信息抽取   总被引:1,自引:1,他引:1  
科研论文头部信息和引文信息对基于域的论文检索、统计和引用分析是必不可少的.由于隐马尔可夫模型不能充分利用对抽取有用的上下文特征,因此文中提出了一种基于条件随机场的中文科研论文头部和引文信息抽取方法,该方法的关键在于模型参数估计和特征选择.实验中采用L-BFGS算法学习模型参数,并选择局部、版面、词典和状态转移4类特征作为模型特征集.在信息抽取时先利用分隔符、特定标识符等格式信息对文本进行分块,在分块基础上用条件随机场进行指定域的抽取.实验表明,该方法抽取性能明显优于基于隐马尔可夫模型的方法,且加入不同的特征集对抽取性能提升作用不同.  相似文献   

7.
基于分块的网页主题信息自动提取算法   总被引:3,自引:0,他引:3  
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.  相似文献   

8.
基于广义隐马尔可夫模型的网页信息抽取方法   总被引:2,自引:0,他引:2  
针对网页所特有的基于版面结构的特点,利用基于视觉的网页分割算法VIPS对网页分块,得到一种新的状态转移序列,取代了传统的状态转移序列。通过二阶Markov链改进广义隐马尔可夫模型(GHMM)的状态转移和输出观测值假设条件,提出了二阶的广义隐马尔可夫模型。最后通过实验说明改进的GHMM对于网页信息抽取有很高的精确率。  相似文献   

9.
网页分块方法使得Web信息抽取的单位由原来的页面缩小为分块.结合分块重要度模型与二维条件随机场的优点,提出一种Web对象信息抽取方法.该方法利用分块重要度模型对网页分块进行重要度标注,过滤掉大量与主题无关信息,更加准确的定位待抽取信息的位置.二维条件随机场模型相比传统的线性条件随机场模型更好的适应了网页分块的二维结构,有效的提高信息抽取准确率.实验结果表明,该方法对Web对象信息抽取具有良好的效果.  相似文献   

10.
Web内容抽取及其数据管理方法   总被引:13,自引:0,他引:13  
随着Internet及其相关技术的飞速发展,WWW已成为最大的信息集散地,无论对企业还是个人,Web逐渐成为最主要的信息来源,然而由于网站数量过多以及由此带来的信息泛滥,使得有用信息的获取越来越困难,搜索引擎只能提供信息的查找范围,而具体的内容还是要靠详细搜查,而且网页信息都是非结构化或半结构化的,无法直接利用分析工具进行分析,所以有必要提供一种网页内容自动抽取及使网页数据结构化的方法,来简化信息获取的过程和方便信息分析处理。  相似文献   

11.
针对传统的Web信息抽取方法运算量大、自动化程度低的问题,提出了一种基于SVM的WEB信息自动化抽取方法。利用SVM优秀的分类性能将网页中有用数据和无用数据分类标注,有效地完成Web信息抽取任务,准确地抽取出所需信息,实现数据抽取的自动化。实验结果表明,该方法可以有效地获取网页信息特征,具有较高的召回率和准确率。  相似文献   

12.
基于Web的新闻自动采编系统   总被引:1,自引:0,他引:1  
为了适应自动采编网络新闻的应用需求,提出了一种基于Web的新闻自动采编系统.首先给出了系统的三层体系结构,在此基础上阐述了各功能子系统的作用和特点,最后给出了深圳大学新闻抓取服务器的具体实现.  相似文献   

13.
基于语义联系的新闻网页关键词抽取   总被引:1,自引:0,他引:1  
提出一种基于语义联系的新闻网页度,还考虑词语在具体上下文中的相关性,用词汇链将词语语义联系表示成图形式,在此基础上抽取出新闻网页关键词.对从网易网站选取120篇有核心提示的新闻网页进行测试,实验结果表明,所提出的方法比基于词频的关键词抽取方法和基于<知网>语义相似度构建词汇链的关键词抽取方法,在准确率和召回率上有很大的提高,当抽取关键词个数为3时,比基于词频方法的准确率和召回率分别提高了27.77%和21.38%.  相似文献   

14.
针对深度学习模型进行建筑物提取时存在的建筑物边缘模糊问题,将级联CRFs(全连接条件随机场)引入到U-Net深度模型中,提出了一种改进的U-Net模型(U-Net+级联CRFs),以用于遥感影像建筑物自动提取:构建级联CRFs并将其引入到U-Net模型的解码层中,从多层结构中学习边界信息,增强模型对建筑物边界的分割能力...  相似文献   

15.
Web图像不断增加的数量和多样性,使当前图像检索技术面临很大挑战.然而目前图像检索技术还不能满足人们的需要.陈述一种图像内容混合自动注释方法-HIAM,它包含2个工作模块的Web图像检索,其中一个模块是两个级别的图像分类器将图像转换成图像概念的次序;另外一个是图像语义相似处理模块-ISAM,它具备从网页中挑选与图像概念相关的术语作为图像注释.使传统的文本信息检索技术能够用于图像查询的功能.  相似文献   

16.
本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取.实验结果表明:该...  相似文献   

17.
彭媛媛  许建潮 《科技信息》2009,(33):85-85,104
随着近年来Internet的飞速发展,Deepweb已成为网络信息资源的重要组成部分,用户通过查询接口在线访问其后端的Web数据库来动态的获取其中蕴含的海量信息。由于DeepWeb资源分布在各个De印web站点,具有异构、动态、数据量大等特点,使用起来较为不便,因此,面向Deep Web的数据集成系统便应运而生。本文对Deepweb数据集成系统中的数据抽取技术进行了研究,提出了基于xml的Deepweb数据自动抽取方法,并作了详细的技术分析与研究,它能够快速有效地抽取出DeepWeb资源,具有抽取准确度高,抽取粒度细等特点。  相似文献   

18.
页没有提供关键词,人工标注关键词代价巨大,并且大多数已有的关键词自动提取算法都需要建立在人工标注的训练集之上,因而难以实用.由于关键词是文章中较重要且主题关联较凝聚的词的集合,因此提出一种基于密度聚类模式的中文新闻网页关键词提取方法,根据词语之间的共现信息,对网页分词后的词语进行聚类,在分析词语关联度的基础上提取出反映新闻主题的关键词.通过大量随机新闻网页实验结果表明,与单纯的TF/IDF(词频和文档频率倒数的乘积)方法相比,此算法召回率平均提高了7.15N,准确率平均提高了7.075%.  相似文献   

19.
基于样本实例的Web信息抽取   总被引:14,自引:1,他引:13  
主要研究了基于HTML文档的信息抽取,提出了一种基于样本实例的Web信息抽取的方法.用户首先选定样本页面和预先定义模式(基于O-R模型),然后对样本页面和其中的样本记录进行标记、学习,形成信息抽取规则,并存入知识库;利用知识库对其他同类页面自动抽取所需的信息,存入数据库中.本方法可用于Web查询,也可用于信息集成的包装器.  相似文献   

20.
新闻网页自动识别的相关特征研究   总被引:1,自引:0,他引:1  
因特网包含着内容广泛、形式各异的信息资源.新闻网页的过滤、摘要和分类已经成为当今的研究热点,因此,如何准确地识别出新闻网页成为迫切需要解决的问题.在研究典型新闻网页特征的基础上,提出一种面向新闻网页自动识别的网页特征集,并采用三种不同的分类算法构建分类器.实验结果表明,在本文所提出的新闻网页特征集的基础上构建的分类器能很好的识别新闻网页.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号