基于内容冗余的Web信息抽取 |
| |
引用本文: | 陈夫桂,胡文江,高永兵,郝斌.基于内容冗余的Web信息抽取[J].中国新技术新产品精选,2012(6):32-32. |
| |
作者姓名: | 陈夫桂 胡文江 高永兵 郝斌 |
| |
作者单位: | 内蒙古科技大学信息工程学院,内蒙古包头014010 |
| |
摘 要: | 提出了一种从模板网站中利用网络上的冗余内容提取结构化数据的方法。该算法从一些原始网站提取记录来填充种子数据库。然后,在每一个新的站点标识值,为了配合不同跨站点交涉的属性值,我们进行了相似性度量。同时为了过滤掉噪声,我们在那些基于模板的网站发现并应用了该属性的实际值。另外借助SOGOU和NICTCLAS中文分词等第三方接口来准确计算词频,使文字分析更适合人们常用的习惯。
|
关 键 词: | Web信息抽取 内容冗余 样本页面 抽取规则 |
本文献已被 维普 等数据库收录! |
|