Rss订阅

首页 »编程综合 » lucene更新索引:Lucene.Net 2.3.1开发介绍 3、索引( 3) »正文

lucene更新索引:Lucene.Net 2.3.1开发介绍 3、索引( 3)

来源: 发布时间:星期四, 2009年1月15日浏览:9次评论:0

　　3、Field配置所产生

效果

　　索引数据

简单

代码

只要两个思路方法就搞定了

而在索引过程中用到

些类里最简单

作用也不小

就是Field

接下来看看Field

各项设置都会有什么样

效果

　　代码 3.1

　　Code

1/**//// <summary>
2/// 索引数据
3/// </summary>
4private void Index
5{
6　　Analyzer analyzer =  StandardAnalyzer;
7　　IndexWriter writer =  IndexWriter("IndexDirectory", analyzer, true);
8　　AddDocument(writer, "我祖国", "英语单词");
9　　AddDocument(writer, "祖国万岁", "英语语法");
10　　AddDocument(writer, "祖国", "英语单元");
11　　AddDocument(writer, "人民", "单词测试");
12　　writer.Optimize;
13　　writer.Close;
14}
15/**//// <summary>
16/// 为索引准备数据
17/// </summary>
18/// <param name="writer">索引例子</param>
19/// <param name="content">需要索引数据</param>
20void AddDocument(IndexWriter writer,  title,  content)
21{
22　　Document document =  Document;
23　　document.Add( Field("title", title, Field.Store.Yes, Field.Index.TOKENIZED));
24　　document.Add( Field("content", content, Field.Store.YES, Field.Index.TOKENIZED));
25　　writer.AddDocument(document);
26}

　　代码3.1就是准备好

索引过程

运行

然后呢？这里要说到

个工具

luke(lukeall)这是

个java平台下

Lucene索引管理工具

抽空

我实现了

个简单

dotNet版本

详细请查看 NLuke版本更新信息

接下来

索引

会用这个软件Software对索引进行分析

　　现在就可以开始调整AddDocument思路方法中Field例子化时

参数了

看看调整后会对索引造成什么样

影响

这里以title对应

Field为例

　　3.1 Field.Stroe选项

　　这个选项有3个值

下面来分析下效果

　　3.1.1 Field.Stroe.Yes

　　刚好

默认

就是这个

用这选项建完索引

然后用NLuke查看

发现

title这个字段有

而且有8个Term

切换到文档区域

发现文档

title有内容

这个选项表示

就是存储

所以

这些是正常状态

　　3.1.2 Field.Stroe.No

　　title也有8个Term

但是文档中没有字段了

也就是说现在可以用这个字段来搜索

但是搜索结果Hits中

不能用Document例子

Get思路方法来取得字段

内容了

那就是字段内容没有被存储

　　3.1.3 Field.Store.COMPRESS

　　设置为COMPRESS

报错了

信息“Compression support not configured”

是个配置

这个

在SupportClass

CheckCompressionSupport思路方法被抛出

这里读取了

个配置文件

然后根据配置文件指定

类名来创建例子

这个类必须实现接口 SupportClass.CompressionSupport.ICompressionAdapter

在Lucene.Net中内置了

个“SharpZipLibAdapter”

但是需要有编译符号SHARP_ZIP_LIB才能编译进去

为了看看效果

所以给项目添加SHARP_ZIP_LIB符号

然后增加app.config配置文件

在app

ing中添加Lucene.Net.CompressionLib.

键

值是SharpZipLibAdapter

然后下载 ICSharpCode.SharpZipLib.dll,这个dll才是真正实现压缩算法

下载地址: http://sourceforge.net/project/downloading.php?groupname=sharpdevelop&filename=SharpZipLib_0855_Bin.zip&use_mirror=nchc

　　把ICSharpCode.SharpZipLib.dll引入项目

就可以使用COMPRESS这个选项了

效果和Yes是

样

　　3.1.4 效果对比

　　对于Field.Stroe.Yes

产生字节大小是:627字节

　　Field.Stroe.COMPRESS是:661字节

　　Field.Stroe.No是:579字节

　　使用Field.Stroe.COMPRESS反而是占用空间最大

这不符合原先

设想

那是

我们索引

文本太小

你可以试试看增加索引

内容

再对比小效果

　　3.2 Field.Index选项

　　现在把Field.Stroe设置为Field.Stroe.Yes

接着来看看Field.Index

效果

　　3.2.1 Field.Index.TOKENIZED

　　这个选项是用来控制分词

TOKENIZED表明需要分词

运行后title有8个Term

没有问题

　　3.2.2 Field.Index.UN_TOKENIZED

　　运行后只有4个Term

而且Term是原先写入

内容

和存储

完整内容没有区别

　　3.2.3 Field.Index.NO

　　和预想

样

title

Term

个也没有了

　　3.2.4 Field.Index.NO_NORMS

　　效果似乎和Field.Index.UN_TOKENIZED

样

但是它把词条

附加信息全去掉了

比如

它将不再记录词

正太分布数据

类

东西

这样可以减少占用

空间

而且这个使用方法也有

个条件

就是只要开启

就要全部开启

否则会失效

比如索引了 4条数据没使用NO_NORMS

而接下来

两条使用了NO_NORMS

那么前面 4条

数据效果

那么接下来

两条数据实际上并没有产生NO_NORMS

效果

　　3.2.5 效果分析

　　1

4 3种情况虽然区别

但是都可以搜索

而第 3种情况

也就是设置为NO

则不可以搜索

第

种情况

可以分词搜索

并且可以排序

而2

4则不能分词搜索

第 4种情况不可以排序(不可以排序指

不能按照词出现

频率进行排序)

　　从上面也可以看出

假设Field.Store设置为NO,而Field.Index也设置为NO

那就和没添加是

样

了

Field.Store是给你取完整数据用

而Field.Index则是给搜索用

在极端

情况下

可以设置Field.Store为NO

而Field.Index可以搜索

等取数据

时候再从数据源(比如数据库)

它们中间有个关联法则

那样可以有效

减轻Lucene

工作压力

　　3.3 Field.TermVector

　　Field.TermVector选项

现在工具还没实现这个功能

不过可以自己编码来实现

　　代码 3.3.5.1

　　Code

1[Test]
2public void TermVectorTest
3{
4　　IndexReader reader = IndexReader.Open("IndexDirectory");
5　　 numDoc = reader.NumDocs;
6　　for ( i = 0; i < numDoc; i)
7　　{
8　　　　Console.WriteLine("Doc:#" + i + "----------------------------");
9　　　　Document doc = reader.Document(i);
10　　　　Field field = doc.GetField("title");
11　　　　Console.WriteLine("是否被索引:" + field.IsIndexed);
12　　　　Console.WriteLine("是否被存储:" + field.IsStored);
13　　　　Console.WriteLine("是否存储开始位置:" + field.IsStorePositionWithTermVector);
14　　　　Console.WriteLine("是否存储结束位置:" + field.IsStoreOffWithTermVector);
15　　　　Console.WriteLine("是否保存了向量:" + field.IsTermVectorStored);
16　　　　Console.WriteLine("是否分词:" + field.IsTokenized);
17　　　　Console.WriteLine("--------------------------------------------");
18　　}
19　　reader.Close;
20}

　　设置Field.TermVector后

可以用代码3.3.5.1检查效果

你可以自己去试试

专注于互联网--专注于架构

首页 »编程综合 » lucene更新索引:Lucene.Net 2.3.1开发介绍 3、索引( 3) »正文

lucene更新索引:Lucene.Net 2.3.1开发介绍 3、索引( 3)

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章