首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着互联网技术的迅猛发展,因特网成为目前新闻信息最丰富最主要的来源。本文在分析新闻网页的基础上,分析了目前现有的信息抽取技术和XML技术,提出了一个基于XML技术的Web新闻抽取系统。本文主要是充分运用XML中的XPath技术在数据定位方面的优势,并提出一种基于DOM树的XPath生成算法,使用XSLT语言用于描述抽取规则,并使用路径表达式XPath定位待抽取的信息点。  相似文献   

2.
基于网页结构特征的信息抽取是现阶段最为常用的抽取手段。为了将待抽取的信息从DOM树中准确地抽取出来,需要对欲抽取的信息进行准确地定位。本文提出了一种新的定位方法,在HTML DOM树的基础上,借助于CSS选择器,抽取所需要的信息。  相似文献   

3.
4.
网页信息抽取方法的研究   总被引:2,自引:0,他引:2  
信息抽取技术属于人工智能的一个分支.使用信息抽取技术可以人性化地从网页中把人们需要的信息抽取出来.文中提出的信息抽取技术是基于DOM和网页模板的一种归纳网页模板的新方法,它能很好地对各种布局元素的网页进行模板归纳,同时给出核心算法的C++实现.  相似文献   

5.
基于Netfilter的实时网页内容过滤器的设计与实现   总被引:1,自引:0,他引:1  
在分析了相关的Netfilter框架技术和文本过滤经典模型的基础上,通过网络包截获、网络包过滤两个步骤实现了基于IP地址过滤和基于关键词过滤的实时网页内容过滤器.在设计过程中,实现了高效提取HTTP响应报文中HTML文件的算法、网络包的gzip解压、IP黑名单哈希树模型、Netlink通信技术和网络包捕获技术.并运行于一个具体的网关计费系统,提高了网关监控能力,为增强同类系统的网络安全提供了有益的参考.  相似文献   

6.
企业相关信息抽取技术研究与系统实现   总被引:9,自引:0,他引:9  
从企业网页中抽取与企业相关的信息是商业上的实际需求,与之相关的研究既有挑战,又有理论意义。文章提出了一个能对中文网页中企业的各种不同类型的属性信息进行抽取的模型,并实现了一个企业相关属性信息抽取系统—CAIES。对该系统进行的测试结果统计表明,它不仅能够满足从网上获取企业竞争情报的实际需求,而且具有较高的抽取正确率与精确率。  相似文献   

7.
8.
随着大数据时代的来临,如何从海量数据中抽取出最有效的信息成为人们最迫切的需要。为了能够在大数据的环境下更好更快地进行汉英文本的信息抽取,文中采用Python编程语言,Django+uWSGI+Nginx框架,基于TextRank的图排序算法实现汉英文本信息抽取系统。该系统包含文本关键词提取,文本关键短语提取以及文本摘要提取。测试结果表明,该系统能够实现大规模数据的高并发稳定调用,在兼顾抽取质量的同时,还能实现超高效率的信息抽取,具有很好的实际应用价值。  相似文献   

9.
在信息技术迅速发展的时代,新闻发布系统得到了广泛的应用,而大部分的系统一般只有PC端的首页,添加新闻方式是手动添加。为此,文章设计并开发了基于Android的新闻发布系统,该系统实现了新闻添加自动获取与手动添加相结合的功能,为已有新闻发布系统的用户新闻自动获取功能奠定了基础。  相似文献   

10.
随着互联网技术的快速发展,人们能够及时地获取大量的新闻文本信息,如何从新闻中自动获取关键信息,把新闻中具有价值的信息转化为结构化数据,从而快速有效地获取有用的知识已是迫切需求.实体关系抽取是获取关键信息的方法之一,但目前关于中文的实体关系抽取工作较少.针对基于长短时记忆网络的中文实体识别模型难于提取长距离的依存关系特征...  相似文献   

11.
为了改善级联积分梳状(CIC)滤波器通带不平和阻带衰减不足的缺点,给出一种改进型CIC滤波器.该滤波器在采用COSINE滤波器提高阻带特性的基础上,级联了一个SINE滤波器,补偿了其通带衰减.硬件实现时,采用新的多相分解方法结合非递归结构,不仅大大减少了存储单元数量,还使电路结构更加规则.经仿真和FPGA验证,改进型CIC滤波嚣使用较少硬件,实现了阻带衰减100.3 dB,通带衰减仅为0.000 1 dB.  相似文献   

12.
介绍了一种应用于ΣΔADC的抽取滤波器的设计和电路实现方法.通过对传统设计方法的分析,提出了一种可以节省10%硬件利用率的改进方法,同时提出了一种适用于半带滤波器的串并联结构,与传统的半带滤波器相比能够提高50%的硬件利用效率.在面积、速度和功耗的折衷的情况下,灵活应用CSD、CSE和多相分解结构,在0.18μm下实现了0.59 mm2的16位数字抽取滤波器.该滤波器与不应用串并联结构的滤波器相比能够节省18%左右的芯片面积.  相似文献   

13.
标准是为了规范行业秩序,经协商一致制定并由公认机构批准的一种文件。由于标准种类繁多,且以电子文档形式存在,因此标准编制单位在编制新标准时需要手工查找大量相关内容,费时费力。为了提高标准编制效率,本文通过研究国标规定的标准编写的结构和规范,提出一种从半结构化标准中抽取信息的方法。  相似文献   

14.
本文针对基层治理存在的基础数据不清晰和工作缺乏精细化、信息化管理的问题,提出了基于信息抽的基层治理系统。该系统在构建区域基层数据底座的基础上,实现了防返贫监测帮扶、精准疫情防控和多层级事件处置的重要功能。根据实际案例的应用效果表明,本系统全面提升了基层治理的服务效能,实际解决了重复性、事务性、滞后性工作的效率问题。  相似文献   

15.
《现代电子技术》2015,(14):85-88
针对高校职称评审评委抽取中存在人为干扰因素多、不透明、因手工操作而缺乏规范性等问题,提出一种随机抽取评委的应用系统。该系统首先根据一定条件组建学院评委库,再由各学院评委库组成校级大评委库;然后从校级大评委库中使用随机函数随机抽取评委,形成各学院当年临时评委库;最后将每个学院临时评委库中的评委与该学院近三年抽取评委库中的评委进行对比,看是否存在连续三年均被抽为评委或当年有直系亲属参评现象,如不存在,则该评委就入当年校级终审评委库,否则,该学院评委需另行抽取。采用该系统,就可避免评委选取中的人为因素,使评委的产生真正做到公开、公平与公正,体现评委抽取的严肃性。  相似文献   

16.
基于Web Service的数据抽取研究与设计   总被引:1,自引:0,他引:1  
Web Service是新兴的技术,将Web Service技术运用到数据抽取中,可以快速、准确地将数据抽取出来,并且能够在不同网络环境下进行数据处理。阐述Web Service的优点和结构,从Web Service的原理入手,以网格项目做背景,设计数据抽取的模型,讨论Web Service在数据抽取中的设计方法,并进行通过Web Service进行数据抽取的相关实验。  相似文献   

17.
事件抽取是信息抽取研究领域中的一个关键问题。针对采用传统的自我训练方法进行泰语新闻事件抽取,具有错误从上向下传播导致事件抽取系统性能不高的问题,针对这一问题,文中提出一种新的引导框架来进行泰语新闻事件抽取,即跨语言信息投影。该方法将从中文事件抽取系统中获取的信息映射为泰语,并采用结合单语与跨语言半协同训练的方法进行泰语新闻事件抽取。最后通过实验验证了本文所提方法是可行的,并且显著地提高了泰语新闻事件抽取的性能。  相似文献   

18.
贾东 《信息技术》2003,27(3):68-69,86
给出了中国建设银行信贷管理信息系统(CMIS)中数据仓库数据抽取的实现方法:应用Informix数据库的触发器(Trigger)存储过程(Store Procedure),在业务变动库中记录业务数据库数据的变动信息,在抽取周期中用变动数据库中的信息对数据仓库新增加的数据进行更新处理,完成数据仓库数据的更新。  相似文献   

19.
为了解决国内网络招聘网站信息量大,求职需耗费大量时间精力的问题,文章基于Flask框架设计并实现了网络招聘信息抽取与分析系统。系统根据用户求职意向,通过爬虫实时采集招聘信息并定向分类,为不同用户匹配岗位,同时,将用户抓取的历史信息存储进数据库,方便用户浏览历史记录和定制招聘信息列表。系统过滤大量无用信息,使求职者更便捷地获取有效信息,提高求职效率。  相似文献   

20.
Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后利用正则表达式滤除内容块中的HTML标记并提取网页正文。实验结果表明,该方法对正文抽取具有较高的通用性与准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号