基于混合条件模型的Web信息抽取 Web Information Extraction Based on Hybrid Conditional Model期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于混合条件模型的Web信息抽取

引用本文：	肖基毅,朱道辉,邹腊梅.基于混合条件模型的Web信息抽取[J].郑州大学学报(理学版),2008,40(3).

作者姓名：	肖基毅朱道辉邹腊梅

作者单位：	南华大学计算机科学与技术学院,湖南,衡阳,421001

基金项目：	湖南省自然科学基金，湖南省教育厅科研项目

摘要：	针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数,提出了一种最大熵和最大熵马尔可夫模型相结合的条件模型.该方法对输入的Web页面进行解析并构建HTML树,通过计算HTML子树结点的熵定位数据域,允许观察值表示任意重叠特征(像词、大写、HTML标记、语义)和定义状态序列给予观察序列的条件概率实现了Web信息抽取.实验结果表明,新的方法在精确度和召回率指标上比传统隐马尔可夫模型和最大熵马尔可夫模型具有更好的性能.
关键词：	Web信息抽取最大熵马尔可夫模型条件模型最大熵隐马尔可夫模型
Web Information Extraction Based on Hybrid Conditional Model

XIAO Ji-yi,ZHU Dao-hui,ZOU La-mei.Web Information Extraction Based on Hybrid Conditional Model[J].Journal of Zhengzhou University:Natural Science Edition,2008,40(3).

Authors:	XIAO Ji-yi ZHU Dao-hui ZOU La-mei

Abstract:

Keywords:
本文献已被维普万方数据等数据库收录！