lucene:lucene学习笔记a 疯狂代码！

lucene:lucene学习笔记a

、环境

　　需要导入lucene.jar包(在lucene.apache.org下载)

　　 2、基本概念

　　1．Lucene

工作流程:

　　(1) 使用IndexWriter

在指定

目录建立索引

文件

　　(2) 将需要检索

数据转换位Document

Filed对象

然后将Document用IndexWriter添加倒索引

文件中

　　(3) 处理索引信息

关闭IndexWriter流

　　(4) 创建搜索

Query

　　(5) 给IndexSearcher

　　2．Lucene

字段类型

　　Lucene有 4种区别

字段类型:Keyword

UnIndexed

UnStored和Text

用于指定建立最佳索引

　　?　　　　 Keyword字段是指不需要分析器解析但需要被编入索引并保存到索引中

部分

JavaSourceCodeIndexer类使用该字段来保存导入类

声明

　　?　　　　 UnIndexed字段是既不被分析也不被索引

但是要被逐字逐句

将其值保存到索引中

由于我们

般要存储文件

位置但又很少用文件名作为关键字来搜索

所以用该字段来索引Java文件名

　　?　　　　 UnStored字段和UnIndexed字段相反

该类型

Field要被分析并编入索引

但其值不会被保存到索引中

由于存储思路方法

全部源代码需要大量

空间

所以用UnStored字段来存储被索引

思路方法源代码

可以直接从Java源文件中取出思路方法

源代码

这样作可以控制我们

索引

大小

　　?　　　　 Text字段在索引过程中是要被分析、索引并保存

类名是作为Text字段来保存

下表展示了JavaSourceCodeIndexer类使用Field字段

般情况

　　3．基本概念(和传统表

对比):

Lucene 传统表介绍说明
IndexWriter table
Document

条记录
Field 每个字段分为可被索引

可切分

不可被切分

不可被索引

几种组合类型
Hits RecoreSet 结果集

　　IndexWriter提供了

些参数可供设置

列表如下

属性默认值介绍说明
mergeFactor org.apache.lucene.mergeFactor 10 控制index

大小和频率,两个作用

　　1.

个段有多少document

　　2.多少个段合成

个大段
maxMergeDocs org.apache.lucene.maxMergeDocs Integer.MAX_VALUE 限制

个段中

document数目
minMergeDocs org.apache.lucene.minMergeDocs 10 缓存Cache在内存中

document数目

超过他以后会写入到磁盘
maxFieldLength 1000

个Field中最大Term数目

超过部分忽略

不会index到field中

所以自然也就搜索不到

　　这些参数

详细介绍说明比较复杂:mergeFactor有双重作用

　　(1)设置每mergeFactor个document写入

个段

比如每10个document写入

个段

　　(2)设置每mergeFacotr个小段合并到

个大段

比如10个document

时候合并为1小段

以后有10个小段以后合并到

个大段

有10个大段以后再合并

实际

document数目会是mergeFactor

指数

　　简单

来说mergeFactor 越大

系统会用更多

内存

更少磁盘处理

如果要打批量

作index

那么把mergeFactor设置大没错

mergeFactor 小了以后

index数目也会增多

searhing

效率会降低

但是mergeFactor增大

点

内存消耗会增大很多(指数关系),所以要留意不要”out of memory”

　　把maxMergeDocs设置小

可以强制让达到

定数量

document写为

个段

这样可以抵消部分mergeFactor

作用.

　　minMergeDocs相当于设置

个小

cache,第

个这个数目

document会留在内存里面

不写入磁盘

这些参数同样是没有最佳值

必须根据实际情况

点点调整

　　maxFieldLength可以在任何时刻设置

设置后

接下来

index

Field会按照新

length截取

的前已经index

部分不会改变

可以设置为Integer.MAX_VALUE

　　4．几种查询方式　　　

查询方式介绍说明
TermQuery 条件查询

　　例如:TermQuery tquery=

TermQuery(

Term("name","jerry"));

　　name:字段名

　　jerry:要搜索

串
MultiTermQuery 多个字段进行同

关键字

查询

　　Query query= null;

　　Query =MultiFieldQueryParser.parse("我",

String

; i

) {
　　　　　　

.out.pr

ln(hits.doc(i).get("name"));
}

　　5.为查询优化索引(index)

　　Indexwriter.optimize

思路方法可以为查询优化索引(index)

的前提到

参数调优是为indexing过程本身优化

而这里是为查询优化

优化主要是减少index文件数

这样让查询

时候少打开文件

优化过程中

lucene会拷贝旧

index再合并

合并完成以后删除旧

index

所以在此期间

磁盘占用增加

IO符合也会增加

在优化完成瞬间

磁盘占用会是优化前

2倍,在optimize过程中可以同时作search

lucene:lucene学习笔记a

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注