基于子主题选择与三级分层结构的Web文本挖掘方法 |
| |
引用本文: | 史玉珍,单冬红.基于子主题选择与三级分层结构的Web文本挖掘方法[J].电信科学,2016(5):96-104. |
| |
作者姓名: | 史玉珍 单冬红 |
| |
作者单位: | 平顶山学院软件学院,河南平顶山,467000 |
| |
基金项目: | 河南省科技厅科技重点攻关项目(142102210226),Key Project of Science and Technology Department in Henan Province(142102210226) |
| |
摘 要: | 针对用户和查询之间的意图差距导致的查询模糊宽泛和数据稀疏问题,根据流行性和多样性返回可能子主题的排名列表,利用子主题选择与排序的分层结构进行Web文本挖掘.首先,在名词性短语和可替代部分查询的基础上,使用简单模式提取各种相关的短语作为候选子主题;然后,使用网页文档集合中的相关文档构建候选子主题的三级层次结构;最后,综合考虑流行性和多样性,利用该结构和估计的流行度进行排序.实验使用了NTCIR-9库的100个日文查询和来自TREC 2009库的100个英文查询以及网络跟踪多样性任务,实验结果验证了本文方法可有效应用于各种搜索,对于高排名的子主题挖掘优于外部资源.
|
关 键 词: | 数据稀疏 文本挖掘 层次结构 多样性 流行性 |
Web text mining method based on subtopic selection and three-level stratified structure |
| |
Abstract: | |
| |
Keywords: | data sparseness text mining stratified structure diversity popularity |
本文献已被 万方数据 等数据库收录! |
|