首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于Tika语义分析的文档内容检索服务研究
引用本文:丁振凡.基于Tika语义分析的文档内容检索服务研究[J].井冈山大学学报(自然科学版),2013(2):60-64.
作者姓名:丁振凡
作者单位:华东交通大学信息工程学院,江西南昌330013
摘    要:介绍了利用Lucene结合Tika实现站点内容的全文检索设计的编程过程。用Tika获取文档的元数据以及文档内容的文本提取。用Lucene实现文档的索引创建和检索服务,结合实例详细分析了Lucene API的具体使用特点。利用Spring MVC实现搜索服务的Web访问处理。可对网站的HTML、PDF、word、PPT、mht等各种类型的文档提供统一的内容检索服务。在该论文研究基础上可建立个性化的内容搜索服务系统。

关 键 词:Spring  MVC  Lucene  Tika  文档元数据  全文检索

RESEARCH OF DOCUMENT RETRIEVAL SERVICE BASED ON TIKA SEMANTIC ANALYSIS
DING Zhen-fan.RESEARCH OF DOCUMENT RETRIEVAL SERVICE BASED ON TIKA SEMANTIC ANALYSIS[J].Journal of Jinggangshan University(Natural Sciences Edition),2013(2):60-64.
Authors:DING Zhen-fan
Institution:DING Zhen-fan (School of Information Engineering, East China Jiao Tong University, Nanchang,Jianxi 330013, China)
Abstract:The programming process of full text retrieval design exploiting Lucene and Tika is introduced. Tika is used for get Metadata and extract text from documents. The index creating and retrieval service is realized by Lucene, we analyze the specific characteristics of Lucene API. Web access processing of search service is implemented using Spring MVC. The service can provide uniform retrieval service for documents in forms of HTML, PDF, WORD, PPT, mht and so on in web sites. Personalized content retrieval service system can be created based on this paper.
Keywords:spring MVC  lucene  tika  document metadata  full text retrieval
本文献已被 CNKI 维普 等数据库收录!
点击此处可从《井冈山大学学报(自然科学版)》浏览原始摘要信息
点击此处可从《井冈山大学学报(自然科学版)》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号