专注于互联网--专注于架构

最新标签
网站地图
文章索引
Rss订阅

首页 »编程综合 » lucene更新索引:深入 Lucene 索引机制 »正文

lucene更新索引:深入 Lucene 索引机制

来源: 发布时间:星期四, 2009年1月15日 浏览:18次 评论:0
  Lucene 是个基于 Java 全文检索工具包你可以利用它来为你应用加入索引和检索功能Lucene 目前是著名 Apache Jakarta 家族中个开源项目下面我们即将学习 Lucene 索引机制以及它索引文件结构

  在这篇文章中我们首先演示如何使用 Lucene 来索引文档接着讨论如何提高索引性能最后我们来分析 Lucene 索引文件结构需要记住Lucene 不是个完整应用而是个信息检索包它方便你为你应用添加索引和搜索功能

  架构概览

  图显示了 Lucene 索引机制架构Lucene 使用各种解析器对各种区别类型文档进行解析比如对于 HTML 文档HTML 解析器会做些预处理工作比如过滤文档中 HTML 标签等等HTML 解析器输出是文本内容接着 Lucene 分词器(Analyzer)从文本内容中提取出索引项以及相关信息比如索引项出现频率接着 Lucene 分词器把这些信息写到索引文件中

  图:Lucene 索引机制架构



  周登朋上海交通大学研究生目前在IBM上海国际化实验室(SGL)实习对Java技术以及信息检索技术非常感兴趣你可以通过 [email protected]来联系他.



0

相关文章

读者评论

发表评论

  • 昵称:
  • 内容: