Rss订阅

首页 »编程综合 » lucene更新索引:Lucene.Net 2.3.1开发介绍 3、索引( 2) »正文

lucene更新索引:Lucene.Net 2.3.1开发介绍 3、索引( 2)

来源: 发布时间:星期四, 2009年1月15日浏览:82次评论:0

　　2、索引中用到

核心类

　　在Lucene.Net索引开发中

用到

类不多

这些类是索引过程

核心类

其中Analyzer是索引建立

基础

Directory是索引建立中或者建立好存储

介质

Document和Field类是逻辑结构

核心

IndexWriter是操作

核心

其他类

使用都被隐藏掉了

这也是为什么Lucene.Net使用这么方便

原因

　　2.1 Analyzer

　　前面已经对Analyzer进行了很详细

讲解

Analyzer将会把

段文本分析称

个个Token

这些Token如何被IndexWriter使用

这里牵涉到

个很重要

类

那就是DocumentsWriter

这个类非常关键

可以说是索引部分最核心

类

IndexWriter只是它

个包装

这里主要介绍应用

所以就不做太详细

介绍

Token在DocumentsWriter类中

通过DocumentsWriter

最重要

思路方法——InvertField——推送到了Field中

这样就完成了分词添加到逻辑结构

过程

　　2.2 Directory

　　严格来说

Directory并不专属于索引

它代表

是Lucene.Net

存储介质

它表示了索引具体存放到什么地方

在前面

两个举例中似乎没有使用到它

那是

你传入

路径

会自动转换成Directory

Directory有两个子类

分别是RAMDirectory——代表索引存放到内存中

和FSDirectory——代表索引存放到硬盘

在使用FSDirectory存放到硬盘

过程中

还是会

RAMDirectory

IndexWriter会把建立

索引先放到RAMDirectory

然后到

定

条件

才将这些数据写入硬盘

　　2.3 IndexWriter

　　IndexWriter是索引中负责操作

核心

它负责把索引文件写入存储介质

是控制逻辑存储转换为物理存储

纽带

　　IndexWriter共有10个可以使用

构造

但是他们

参数类型比较少

共有以下几种:

　　(1)、Directory d；

　　(2)、Analyzer a；

　　(3)、bool create;

　　(4)、FileInfo path；

　　(5)、

path；

　　(6)、bool autoCommit；

　　(7)、IndexDeletionPolicy deletionPolicy；

　　其中6

7不常用

而FileInfo path和

path最终都会构造成Directory

又

这两种路径都是磁盘

路径

所以构造出来

Directory

定是FSDrectory

bool create表示是否是创建

否则是增量更新

默认状态是false

bool autoCommit不常用

是用来指定是否当索引在close状态下才更新

如果是false,则需要在close状态下更新

IndexDeletionPolicy deletionPolicy则是指定是否对以前

更新进行移除

它能表示为两个值

KeepOnlyLastCommitDeletionPolicy和SnapshotDeletionPolicy

默认状态下是

KeepOnlyLastCommitDeletionPolicy

　　2.4 Document

　　Document就是

条虚拟记录

可以理解为数据里

行

正是有了它

才使我们可以很方便并且易于理解地操作索引文件

它

般记录了需要用到

个文档

属性

当然

这需要和Field联合使用

　　2.5 Field

　　Field类就是数据库里

列

个文档有标题

内容

作者

创建时间这 4个属性

话

那么就需要 4个Field保存这些属性

然后把 4个Field加入到Document中

就有了

行记录

在查询

时候

无论查那个列

总能得到

整行记录

是不是和数据库很相似？

　　Field本身具有

些属性

就和数据库里

列

样

它

属性通过它

3个内嵌类设置

其实这个地方完全可以用枚举

但是很遗憾

是Java里面没有枚举

所以移植过来也没有转换为枚举

　　Field

构造

也比较多

有7个的多

其中Store

Index和TermVector是通过内部类指定

　　(1)、Store 有 3个选项

Field.Store.COMPRESS表示被压缩存储；Field.Store.YES表示储存；Field.Store.NO表示不被存储

　　(2)、Index

选项有 4个

Field.Index.NO表示不建立索引；Field.Index.TOKENIZED表示分词后索引；Index.NO_NORMS表示值存储内容；Field.Index.UN_TOKENIZED表示不分词索引

　　(3)、TermVector这个参数也不常用

它有 5个选项

Field.TermVector.NO表示不索引Token

位置属性；Field.TermVector.WITH_OFFSETS表示额外索引Token

结束点；Field.TermVector.WITH_POSITIONS表示额外索引Token

当前位置；Field.TermVector.WITH_POSITIONS_OFFSETS表示额外索引Token

当前和结束位置；Field.TermVector.YES则表示存储向量

　　2.6 索引核心类工作流程

　　图 2.6.1

　　如图2.6.1表示了数据在Lucene.Net索引过程处理

整个流程

注意

这个流程图中

分词器并不直接产生Field对象

在例子中Analyzer是被赋予IndexWriter例子

等等执行添加文档操作

时候

IndexWriter才会真正地

分词器生成Field需要

数据(在DocumentWriter类中)

上图只是反映了数据是如何流动

并不是真实

过程

专注于互联网--专注于架构

首页 »编程综合 » lucene更新索引:Lucene.Net 2.3.1开发介绍 3、索引( 2) »正文

lucene更新索引:Lucene.Net 2.3.1开发介绍 3、索引( 2)

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章