Ingersoll认为这次
![](/icons/79389de.gif)
版本中最大
![](/icons/79389de.gif)
变化是新
![](/icons/79389de.gif)
索引算法
![](/icons/79389dou.gif)
它使用了新
![](/icons/79389de.gif)
in-memory模型来达到大幅
![](/icons/79389de.gif)
速度提升
![](/icons/79389dou2.gif)
据Ingersoll说
![](/icons/79389dou.gif)
单单是把Lucene 2.2 JAR换成Lucene 2.3 JAR就能在某些测试中把索引性能提速500%
![](/icons/79389dou2.gif)
其他改变还包括:
改进
![](/icons/79389de.gif)
索引管理——以前在索引过程中
![](/icons/79389dou.gif)
当合并内部索引文件时偶尔会出现长时间
![](/icons/79389de.gif)
停顿
![](/icons/79389dou.gif)
现在已经消灭了这种现象
![](/icons/79389dou2.gif)
另外现在也更容易实现其他途径去管理索引过程
对象池——Document、Field和Token
![](/icons/79389de.gif)
例子现在可在索引分析中重用
![](/icons/79389dou.gif)
因此不但提升了分析
![](/icons/79389de.gif)
速度
![](/icons/79389dou.gif)
还减少了索引过程中
![](/icons/79389de.gif)
内存分配次数
重新打开IndexReader ——重新打开
![](/icons/79389yi.gif)
个IndexReader去捕捉索引中最新
![](/icons/79389de.gif)
变化
![](/icons/79389dou.gif)
这个操作
![](/icons/79389de.gif)
速度现在也更快了
![](/icons/79389dou.gif)
新
![](/icons/79389de.gif)
reopen
![](/icons/79389kh.gif)
思路方法只会加载那些变更过
![](/icons/79389de.gif)
索引片断
![](/icons/79389dou.gif)
而不是重新加载完整
![](/icons/79389de.gif)
索引
更简易
![](/icons/79389de.gif)
IndexWriter微调——
![](/icons/79389set.gif)
MaxBufferedDocs已被更直观
![](/icons/79389de.gif)
![](/icons/79389set.gif)
RAMBufferSizeMB所取代
另外
![](/icons/79389dou.gif)
2.3
![](/icons/79389de.gif)
目标是只需通过文件替换就能换下2.2
![](/icons/79389dou.gif)
完全不需要重新编译
![](/icons/79389dou2.gif)
这里是完整
![](/icons/79389de.gif)
更新介绍说明
Ingersoll还谈论了Lucene未来
![](/icons/79389de.gif)
计划
![](/icons/79389dou.gif)
他说下
![](/icons/79389yi.gif)
版将会是2.9
![](/icons/79389dou2.gif)
2.9版是相对改动较小
![](/icons/79389de.gif)
版本
![](/icons/79389dou.gif)
有些部分会被标为废弃
![](/icons/79389dou.gif)
还会为了给Lucene 3.0做准备而进行
![](/icons/79389yi.gif)
些清理
![](/icons/79389dou2.gif)
3.0版是
![](/icons/79389yi.gif)
个重大
![](/icons/79389de.gif)
版本
![](/icons/79389dou.gif)
包括把代码库迁移到JDK5
![](/icons/79389dou.gif)
以的作为最低要求
![](/icons/79389dou2.gif)
3.0
![](/icons/79389de.gif)
其他主要特性还有待决定
采访中还讨论了Lucene社区
![](/icons/79389de.gif)
总体情况
![](/icons/79389dou2.gif)
Ingersoll表示Lucene和Solr结合得很紧密
![](/icons/79389dou.gif)
而和Nutch、Tika以及Hadoop也有相当良好
![](/icons/79389de.gif)
相互沟通
![](/icons/79389dou2.gif)
Ingersoll还谈论了
![](/icons/79389yi.gif)
个名为Mahout
![](/icons/79389de.gif)
项目
![](/icons/79389dou.gif)
他正在启动该项目:
这是
![](/icons/79389yi.gif)
个单独
![](/icons/79389de.gif)
项目
![](/icons/79389dou.gif)
但对Lucene用户也会有好处
![](/icons/79389dou2.gif)
JIRA中已经有
![](/icons/79389yi.gif)
些Lucene
![](/icons/79389de.gif)
补丁实现了ML算法
![](/icons/79389dou2.gif)
这个项目
![](/icons/79389de.gif)
目标是提供商业质量
![](/icons/79389de.gif)
大规模机器学习(machine learning
![](/icons/79389dou.gif)
ML)算法
![](/icons/79389dou2.gif)
它以Hadoop为基础建立
![](/icons/79389dou.gif)
遵循Apache许可证
![](/icons/79389dou2.gif)
我已经观察到不少人对这个项目感兴趣
![](/icons/79389dou.gif)
希望在接下来这个月能把项目启动起来
![](/icons/79389dou2.gif)
Ingersoll说
![](/icons/79389dou.gif)
通过建立Mahout项目
![](/icons/79389dou.gif)
他希望能够“进
![](/icons/79389yi.gif)
步揭开Google这类公司提供
![](/icons/79389de.gif)
类似功能
![](/icons/79389de.gif)
秘密
![](/icons/79389dou.gif)
并刺激在这个领域中
![](/icons/79389de.gif)
创新”
![](/icons/79389dou2.gif)
如果对这个新项目感兴趣
![](/icons/79389dou.gif)
可以阅读
![](/icons/79389yi.gif)
下它
![](/icons/79389de.gif)
项目计划和孵化提案
查看英文原文:Lucene 2.3: Large indexing performance improvements,
![](/icons/79389new.gif)
machine-learning project