专注于互联网--专注于架构

最新标签
网站地图
文章索引
Rss订阅

首页 »编程综合 » luceneinaction:Lucene 2.3:大幅提升索引性能 新增机器学习项目 »正文

luceneinaction:Lucene 2.3:大幅提升索引性能 新增机器学习项目

来源: 发布时间:星期四, 2009年1月15日 浏览:14次 评论:0
  Ingersoll认为这次版本中最大变化是新索引算法它使用了新in-memory模型来达到大幅速度提升据Ingersoll说单单是把Lucene 2.2 JAR换成Lucene 2.3 JAR就能在某些测试中把索引性能提速500%其他改变还包括:

  改进索引管理——以前在索引过程中当合并内部索引文件时偶尔会出现长时间停顿现在已经消灭了这种现象另外现在也更容易实现其他途径去管理索引过程

  对象池——Document、Field和Token例子现在可在索引分析中重用因此不但提升了分析速度还减少了索引过程中内存分配次数

  重新打开IndexReader ——重新打开个IndexReader去捕捉索引中最新变化这个操作速度现在也更快了reopen思路方法只会加载那些变更过索引片断而不是重新加载完整索引

  更简易IndexWriter微调——MaxBufferedDocs已被更直观RAMBufferSizeMB所取代

  另外2.3目标是只需通过文件替换就能换下2.2完全不需要重新编译这里是完整更新介绍说明

  Ingersoll还谈论了Lucene未来计划他说下版将会是2.92.9版是相对改动较小版本有些部分会被标为废弃还会为了给Lucene 3.0做准备而进行些清理3.0版是个重大版本包括把代码库迁移到JDK5以的作为最低要求3.0其他主要特性还有待决定

  采访中还讨论了Lucene社区总体情况Ingersoll表示Lucene和Solr结合得很紧密而和Nutch、Tika以及Hadoop也有相当良好相互沟通Ingersoll还谈论了个名为Mahout项目他正在启动该项目:

  这是个单独项目但对Lucene用户也会有好处JIRA中已经有些Lucene补丁实现了ML算法这个项目目标是提供商业质量大规模机器学习(machine learningML)算法它以Hadoop为基础建立遵循Apache许可证我已经观察到不少人对这个项目感兴趣希望在接下来这个月能把项目启动起来   Ingersoll说通过建立Mahout项目他希望能够“进步揭开Google这类公司提供类似功能秘密并刺激在这个领域中创新”如果对这个新项目感兴趣可以阅读下它项目计划和孵化提案

  查看英文原文:Lucene 2.3: Large indexing performance improvements, machine-learning project

0

相关文章

读者评论

发表评论

  • 昵称:
  • 内容: