首页 | 本学科首页   官方微博 | 高级检索  
     检索      

Blog网页分类与识别技术研究
引用本文:郑德权,张 迪,赵铁军,于 浩.Blog网页分类与识别技术研究[J].通信学报,2007,28(12):156-160.
作者姓名:郑德权  张 迪  赵铁军  于 浩
作者单位:哈尔滨工业大学,语言语音教育部-微软重点实验室,黑龙江,哈尔滨,150001
基金项目:国家自然科学基金;国家高技术研究发展计划(863计划)
摘    要:为了找到一种自动将Blog网页区别于其他Web页面的方法,以便针对Blog语料进行内容抽取、对Blog社区进行规律性研究和发现等,针对Blog网页的特点与规律,提出一种根据网页结构和关键字计算相似度的方法识别Blog网页,初步的实验结果表明,达到了较高的识别正确率。

关 键 词:Blog网页识别  相似度计算  网页分类
文章编号:1000-436X(2007)12-0156-05
收稿时间:2007-09-25
修稿时间:2007-12-03

Study on the classification and identification of Blog pages
ZHENG De-quan,ZHANG Di,ZHAO Tie-jun,YU Hao.Study on the classification and identification of Blog pages[J].Journal on Communications,2007,28(12):156-160.
Authors:ZHENG De-quan  ZHANG Di  ZHAO Tie-jun  YU Hao
Abstract:In order to find an automatic way to recognize the Blog pages from other Web pages for the content extraction of the Blog pages and other researches. According to the characteristic of Blog pages, some basic concepts and ideas in the area of Blog was described, and a novel method on the identification of Blog pages was proposed based on the structure of the Blog pages and keywords. The experimental results showe that a high result can be achieved in precision.
Keywords:Blog pages identification  similarity computing  Blog pages classification
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《通信学报》浏览原始摘要信息
点击此处可从《通信学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号