Rss订阅

首页 »编程综合 » lucene更新索引:Lucene倒排索引原理 »正文

lucene更新索引:Lucene倒排索引原理

来源: 发布时间:星期四, 2009年1月15日浏览:6次评论:0

　　Lucene是

个高性能

java全文检索工具包

它使用

是倒排文件索引结构

该结构及相应

生成算法如下:

　　0)设有两篇文章1和2

　　文章1

内容为:Tom lives in Guangzhou,I live in Guangzhou too.

　　文章2

内容为:He once lived in Shanghai.

　　1)由于lucene是基于关键词索引和查询

首先我们要取得这两篇文章

关键词

通常我们需要如下处理措施

　　a.我们现在有

是文章内容

即

个

串

我们先要找出

串中

所有单词

即分词

英文单词由于用空格分隔

比较好处理

中文单词间是连在

起

需要特殊

分词处理

　　b.文章中

”in”, “once” “too”等词没有什么实际意义

中文中

“

”“是”等字通常也无具体含义

这些不代表概念

词可以过滤掉

　　c.用户通常希望查“He”时能把含“he”

“HE”

文章也找出来

所以所有单词需要统

大小写

　　d.用户通常希望查“live”时能把含“lives”

“lived”

文章也找出来

所以需要把“lives”

“lived”还原成“live”

　　e.文章中

标点符号通常不表示某种概念

也可以过滤掉

　　在lucene中以上措施由Analyzer类完成

　　经过上面处理后

　　文章1

所有关键词为:[tom] [live] [guangzhou] [i] [live] [guangzhou]

　　文章2

所有关键词为:[he] [live] [shanghai]

　　2) 有了关键词后

我们就可以建立倒排索引了

上面

对应关系是:“文章号”对“文章中所有关键词”

倒排索引把这个关系倒过来

变成:“关键词”对“拥有该关键词

所有文章号”

文章1

2经过倒排后变成

　　关键词文章号

　　guangzhou 1
　　he 2
　　i 1
　　live 1,2
　　shanghai 2
　　tom 1

　　通常仅知道关键词在哪些文章中出现还不够

我们还需要知道关键词在文章中出现次数和出现

位置

通常有两种位置:a)

位置

即记录该词是文章中第几个

(优点是关键词亮显时定位快)；b)关键词位置

即记录该词是文章中第几个关键词(优点是节约索引空间、词组(phase)查询快)

lucene 中记录

就是这种位置

　　加上“出现频率”和“出现位置”信息后

我们

索引结构变为:

　　关键词文章号[出现频率] 出现位置

　　guangzhou 1[2] 36
　　he 2[1] 1
　　i 1[1] 4
　　live 1[2],2[1] 252
　　shanghai 2[1] 3
　　tom 1[1] 1

　　以live 这行为例我们介绍说明

下该结构:live在文章1中出现了2次

文章2中出现了

次

它

出现位置为“2,5,2”这表示什么呢？我们需要结合文章号和出现频率来分析

文章1中出现了2次

那么“2,5”就表示live在文章1中出现

两个位置

文章2中出现了

次

剩下

“2”就表示live是文章2中第 2个关键字

　　以上就是lucene索引结构中最核心

部分

我们注意到关键字是按

顺序排列

(lucene没有使用B树结构)

因此lucene可以用 2元搜索算法快速定位关键词

　　实现时 lucene将上面 3列分别作为词典文件(Term Dictionary)、频率文件(frequencies)、位置文件 (positions)保存

其中词典文件不仅保存有每个关键词

还保留了指向频率文件和位置文件

指针(什么格式

)

通过指针可以找到该关键字

频率信息和位置信息

　　 Lucene中使用了field

概念

用于表达信息所在位置(如标题中

文章中

url中)

在建索引中

该field信息也记录在词典文件中

每个关键词都有

个field信息(

每个关键字

定属于

个或多个field)

　　为了减小索引文件

大小

Lucene对索引还使用了压缩技术

首先

对词典文件中

关键词进行了压缩

关键词压缩为<前缀长度

后缀>

例如:当前词为“阿拉伯语”

上

个词为“阿拉伯”

那么“阿拉伯语”压缩为<3

语>

其次大量用到

是对数字

压缩

数字只保存和上

个值

差值(这样可以减小数字

长度

进而减少保存该数字需要

字节数)

例如当前文章号是16389(不压缩要用3个字节保存)

上

文章号是16382

压缩后保存7(只用

个字节)

　　下面我们可以通过对该索引

查询来解释

下为什么要建立索引

　　假设要查询单词 “live”

lucene先对词典 2元查找、找到该词

通过指向频率文件

指针读出所有文章号

然后返回结果

词典通常非常小

因而

整个过程

时间是毫秒级

　　而用普通

顺序匹配算法

不建索引

而是对所有文章

内容进行

串匹配

这个过程将会相当缓慢

当文章数目很大时

时间往往是无法忍受

专注于互联网--专注于架构

首页 »编程综合 » lucene更新索引:Lucene倒排索引原理 »正文

lucene更新索引:Lucene倒排索引原理

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章