Rss订阅

首页 »编程综合 » lucene更新索引:Lucene.Net 2.3.1开发介绍 3、索引( 7) »正文

lucene更新索引:Lucene.Net 2.3.1开发介绍 3、索引( 7)

来源: 发布时间:星期四, 2009年1月15日浏览:8次评论:0

　　5、IndexWriter

　　索引这部分最后讲

是IndexWriter

如果说前面提到

都是数据

结构

那么IndexWriter就是业务

封装

无论述Document

Field还是看不见

Segment,Term都是对数据存储逻辑

抽象

IndexWriter包装了操作

过程

　　当然

这里不会讨论IndexWriter

每个细节

这里主要介绍IndexWriter

常使用方法和实际使用中遇到

部署问题

　　5.1 IndexWriter

常用思路方法

　　IndexWriter

使用方法很简单

前文有例子

在

接触Lucene.Net

文中代码2.1.1就是最简单

使用方法

可以看到IndexWriter

构造

很重要

AddDocument思路方法也很重要

有这两个思路方法

就可以建立索引了

其它

思路方法都是对建立索引

过程或者结果进行了优化

或者是提供了

些索引中或者索引后

数据

比如

常用

Optimize思路方法

就是对索引进行优化

使得搜索能够效率更高

还有

些常用

思路方法(按字母排序):

　　(1)、AddIndexes思路方法是合并区别部分索引

这个思路方法很有用

比如

用5个线程在5个目录下建立索引

然后用这个思路方法把5个索引合并为

个

这样就能提高索引

效率；

　　(2)、Close思路方法是最后使用

思路方法

除了能够去除对文件

锁定外

还能起到Flush思路方法

作用

这个思路方法非常重要

在IndexWriter例子建立后

无论出现什么样

问题

哪怕

崩溃

都

定要显式

该思路方法

要不然索引会处于锁定状态

无法解除；

　　(3)、DeleteDocuments是用来删除索引

这里只能指定Term删除

使用价值不是太高；

　　(4)、Flush思路方法是把缓冲数据写入

个思路方法

在不想关闭索引但是要清空缓冲区

时候使用；

　　(5)、Optimize思路方法是优化索引

思路方法

如果索引数据很大

则

这个思路方法会耗费很长时间

另外就是

如果索引文件这个时候被读取

并不能达到删除废弃文件

目

　　(6)、SetMaxBufferedDocs思路方法是规定缓冲区能够缓冲Document

个数

写硬盘要比写内存慢很多

这个值设置得越大

暂时存储到内存

Document就会越多；

　　(7)、SetMaxFieldLength思路方法设置Field

最大长度；

　　(8)、UpdateDocument用来更新索引

但是实际上并不是真正

更新

而是先删除

再添加

如果不进行优化

那么至少会增加两个文件

个记录了增加

个记录了删除

　　5.2 索引

部署

　　索引

部署根据索引

大小而趋向复杂

我认为至少是平方增长

复杂度增长

原因在于

索引大小

增长

将会引入更多需要考虑

原因

比如

索引

重建

索引优化时间

多索引部署等

而分布式部署基本上是目前最复杂

部署方案

般来说

应该

个索引存储

只应该由

个IndexWriter来控制

个存储不应该超过2G

即使是2G

每次索引更新都需要10分钟左右来优化索引

至于如何分配索引

要根据实际情况来决定

而且要考虑诸如

崩溃等情况

　　在Java版

搜索引擎解决方案中有很多可以借鉴

地方

比如

对于数据索引

Compass

索引方式可以参考；对于抓取式

搜索引擎

Nutch可以参考；分布式解决方案可以参考Hadoop

如何实现像Compass

样

添加、删除、更新都能及时反映到索引当中

站内搜索引擎

般都会面临这样

问题

Lucene.Net已经为我们提供了实现

思路方法

至于实现

逻辑需要你去研究

　　6、索引小节

　　本篇文章是索引部分

完结篇

从第

篇到这里第 7篇

主要介绍了两个东西

个是Lucene.Net

逻辑存储

另外

个就是如何操作逻辑存储

在逻辑存储上讲得比较详细

特别是有关权重部分

而操作则只简单提

下

逻辑存储有助于理解Lucene.Net索引

流程

而操作则只是相当于CPU

指令

业务逻辑需要自己去实现

相信看了以上 7篇文章

有助于对Lucene.Net索引

理解

当然

这里只讲了表面上

东西

更加深入地理解Lucene需要从更加底层

Directory入手

索引部分就暂时写到这里了

后面将进入搜索问题

探讨

专注于互联网--专注于架构

首页 »编程综合 » lucene更新索引:Lucene.Net 2.3.1开发介绍 3、索引( 7) »正文

lucene更新索引:Lucene.Net 2.3.1开发介绍 3、索引( 7)

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章