Rss订阅

首页 »编程综合 » luceneinaction:Lucene 2.3:大幅提升索引性能新增机器学习项目 »正文

luceneinaction:Lucene 2.3:大幅提升索引性能新增机器学习项目

来源: 发布时间:星期四, 2009年1月15日浏览:14次评论:0

　　Ingersoll认为这次

版本中最大

变化是新

索引算法

它使用了新

in-memory模型来达到大幅

速度提升

据Ingersoll说

单单是把Lucene 2.2 JAR换成Lucene 2.3 JAR就能在某些测试中把索引性能提速500%

其他改变还包括:

　　改进

索引管理——以前在索引过程中

当合并内部索引文件时偶尔会出现长时间

停顿

现在已经消灭了这种现象

另外现在也更容易实现其他途径去管理索引过程

　　对象池——Document、Field和Token

例子现在可在索引分析中重用

因此不但提升了分析

速度

还减少了索引过程中

内存分配次数

　　重新打开IndexReader ——重新打开

个IndexReader去捕捉索引中最新

变化

这个操作

速度现在也更快了

新

reopen

思路方法只会加载那些变更过

索引片断

而不是重新加载完整

索引

　　更简易

IndexWriter微调——

MaxBufferedDocs已被更直观

RAMBufferSizeMB所取代

　　另外

2.3

目标是只需通过文件替换就能换下2.2

完全不需要重新编译

这里是完整

更新介绍说明

　　Ingersoll还谈论了Lucene未来

计划

他说下

版将会是2.9

2.9版是相对改动较小

版本

有些部分会被标为废弃

还会为了给Lucene 3.0做准备而进行

些清理

3.0版是

个重大

版本

包括把代码库迁移到JDK5

以的作为最低要求

3.0

其他主要特性还有待决定

　　采访中还讨论了Lucene社区

总体情况

Ingersoll表示Lucene和Solr结合得很紧密

而和Nutch、Tika以及Hadoop也有相当良好

相互沟通

Ingersoll还谈论了

个名为Mahout

项目

他正在启动该项目:

　　这是

个单独

项目

但对Lucene用户也会有好处

JIRA中已经有

些Lucene

补丁实现了ML算法

这个项目

目标是提供商业质量

大规模机器学习(machine learning

ML)算法

它以Hadoop为基础建立

遵循Apache许可证

我已经观察到不少人对这个项目感兴趣

希望在接下来这个月能把项目启动起来

　　Ingersoll说

通过建立Mahout项目

他希望能够“进

步揭开Google这类公司提供

类似功能

秘密

并刺激在这个领域中

创新”

如果对这个新项目感兴趣

可以阅读

下它

项目计划和孵化提案

　　查看英文原文:Lucene 2.3: Large indexing performance improvements,

machine-learning project

标签：lucene分析与应用 lucene教程 lucene.net luceneinaction

下载文章的 PDF文档电子版离线看

我顶

专注于互联网--专注于架构

首页 »编程综合 » luceneinaction:Lucene 2.3:大幅提升索引性能新增机器学习项目 »正文

luceneinaction:Lucene 2.3:大幅提升索引性能新增机器学习项目

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章

专注于互联网--专注于架构

首页 »编程综合 » luceneinaction:Lucene 2.3:大幅提升索引性能 新增机器学习项目 »正文

luceneinaction:Lucene 2.3:大幅提升索引性能 新增机器学习项目

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章

首页 »编程综合 » luceneinaction:Lucene 2.3:大幅提升索引性能新增机器学习项目 »正文

luceneinaction:Lucene 2.3:大幅提升索引性能新增机器学习项目