首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于混合条件模型的Web信息抽取
引用本文:肖基毅,朱道辉,邹腊梅.基于混合条件模型的Web信息抽取[J].郑州大学学报(理学版),2008,40(3).
作者姓名:肖基毅  朱道辉  邹腊梅
作者单位:南华大学计算机科学与技术学院,湖南,衡阳,421001
基金项目:湖南省自然科学基金,湖南省教育厅科研项目
摘    要:针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数,提出了一种最大熵和最大熵马尔可夫模型相结合的条件模型.该方法对输入的Web页面进行解析并构建HTML树,通过计算HTML子树结点的熵定位数据域,允许观察值表示任意重叠特征(像词、大写、HTML标记、语义)和定义状态序列给予观察序列的条件概率实现了Web信息抽取.实验结果表明,新的方法在精确度和召回率指标上比传统隐马尔可夫模型和最大熵马尔可夫模型具有更好的性能.

关 键 词:Web信息抽取  最大熵马尔可夫模型  条件模型  最大熵  隐马尔可夫模型

Web Information Extraction Based on Hybrid Conditional Model
XIAO Ji-yi,ZHU Dao-hui,ZOU La-mei.Web Information Extraction Based on Hybrid Conditional Model[J].Journal of Zhengzhou University:Natural Science Edition,2008,40(3).
Authors:XIAO Ji-yi  ZHU Dao-hui  ZOU La-mei
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号