专注于互联网--专注于架构

最新标签
网站地图
文章索引
Rss订阅
  1、引用Lucene.Net类库  找到Lucene.Net源代码在“C#srcLucene.Net”目录打开Visual Studio我版本是2008而Lucene.Net默认是2005先创建个项目简单起见创建个C#控制台   Document;45    //  document.Add( Field("title", title, Field.Store.YES, Field.Index.TOKENIZED));46    //  document.Add( Field("content&quo [阅读全文] [PDF]
  Editor's note: We are rerunning this Introduction to Lucene that originally ran in July 2003 in honor of the publication of "Lucene in action" by Otis Gospodnetic and Erik Hatcher. To see an example of Lucene in action, take a look at Erik's www.lucenebook.com s [阅读全文] [PDF]
  org.apache.lucene包是纯java语言全文索引检索工具包  Lucene作者是资深全文索引/检索专家最开始发布在他本人主页上2001年10月贡献给APACHE成为APACHE基金jakarta个子项目lucene广泛用于全文索引/检索项目中目前已经有很多应用搜索功能是基于 Lucene 比如 Eclipse 帮助系统搜索功能Lucene 能够为文本类型数据建立索引所以你只要能把你要索引数据格式转化文本Lucene 就能对你文档进行索引和搜索比如你要对些 HTML 文档PDF 文档进行索引话你就首先需要把 HTML 文档和 PDF 文档转化成 [阅读全文] [PDF]
  信息检索过程介绍  全文检索和数据库应用最大区别在于:让最相关头100条结果满足98%以上用户需求  1构建文本库  在开发功能前个信息检索系统需要做些准备工作首先必须要构建个文本数据库这个文本数据库用来保存所有用户可能检索信息  在这些信息基础上确定索引中文本类型文本类型是被系统所认可种信息格式这种格式应当具有可识别冗余程度低特点旦文本模型确定下来后就不应当对其进行大行动  2建立索引  有了这种文本模型后就应该根据数据库内文本建立索引索引可以大大提高信息检索速度目前有许多索引建立方式采用哪种方式取决于信息检索系统规模大型信息检索系统(百度google [阅读全文] [PDF]
  本文定义了Lucene(版本1.3)用到索引文件格式   Jakarta Lucene是用Java写成同时有很多团体正在默默用其他语言来改写它如果这些新版本想和Jakarta Lucene兼容就需要个和具体语言无关Lucene索引文件格式本文正是试图提供个完整和语言无关Jakarta Lucene 1.3索引文件格式规格定义  随着Lucene不断发展本文也应该更新区别语言写成Lucene实现版本应当尽力遵守文件格式也必须产生本文新版本  本文同时提供兼容性批注描述文件格式上和前版本区别地方  定义  Lucene中最基础概念是索引(index)文档(d [阅读全文] [PDF]
  Lucene实现对查询结果排序:  Sort sort = Sort( SortField("isbn", false)); //单个字段  Sort sort = Sort( SortField{ SortField("isbn", false), SortField("pbl_dt", true)}); //多个字段  其中,SortField构造中第 2个参数能够确定是升序还是降序(true:降序; false:升序)  提醒:索引中tokenized字段是不能被排序否则会抛异常   [阅读全文] [PDF]
package src;  import java.io.StringReader;import java.util.Date;  import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.SimpleAnalyzer;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.analysis.cjk.CJKAnalyzer;import org.apache.lucene.ana [阅读全文] [PDF]
  6.Locking机制  lucence  内部使用文件来locking默认locking文件放在java.io.tmpdir,可以通过-Dorg.apache.lucene.lockDir=xxx指定新dir有write.lock commit.lock两个文件lock文件用来防止并行操作index如果并行操作 lucene会抛出异常可以通过设置-DdisableLuceneLocks=true来禁止locking这样做般来说很危险除非你有操作系统或者物理级别只读保证比如把index文件刻盘到CDROM上  十、  2.0中新增特性  1.  新增类: [阅读全文] [PDF]
  5.Lucene 检索结果排序  Lucene  排序主要是对org.apache.lucene.search.Sort使用Sort可以直接根据字段Field生成也可以根据标准SortField生成但是作为Sort字段必须符合以下条件:唯值以及Indexed可以对Integers, Floats, Strings 3种类型排序  对整数型ID检索结果排序只要进行以下简单操作:  Sort sort = Sort("id");  Hits hits = searcher.search(query, sort);  用户还可以根据自己定 [阅读全文] [PDF]
  4.org.apache.lucene.document.Field  即上文所说“字段”它是Document片段section  Field  构造:  Field(String name, String , boolean store, boolean index, boolean token)    Indexed  :如果字段是Indexed表示这个字段是可检索  Stored  :如果字段是Stored表示这个字段值可以从检索结果中得到  Tokenized  :如果个字段是Tokenized表示它是有经过Analyze [阅读全文] [PDF]
  、环境  需要导入lucene.jar包(在lucene.apache.org下载)   2、基本概念  1.Lucene工作流程:  (1) 使用IndexWriter在指定目录建立索引文件  (2) 将需要检索数据转换位DocumentFiled对象然后将Document用IndexWriter添加倒索引文件中  (3) 处理索引信息关闭IndexWriter流  (4) 创建搜索Query  (5) 给IndexSearcher  2.Lucene字段类型  Lucene有 4种区别字段类型:KeywordUnIndexedUnStored和Tex [阅读全文] [PDF]
  这个东西在2006年初,我就开始在项目中使用.我对它也有了些了解. 但主要开发还是小兵们在做. 所以仅仅了解了些皮毛. 下面我将以知识点形式, 列出来. 以笔记形式连载. 也方便大家起学习. 每个点, 我都会写个知识点.  1, 2005年时候, 听说了lucene. 是个开源搜索引擎开发包. 而不是个搜索引擎,请切记.  2, 如果开始学习它, 就需要至少知道,它所包含包. 目前lucene已经到了2.2版本. 当然你需要时刻关注他最新版本. 目前包: lucene-core-2.2.0.jar . 下载可以到apache网站WebSite上下载. 这 [阅读全文] [PDF]
  1, 有时对于个Document来说有些Field会被频繁地操作而另些Field则不会这时可以将频繁操作Field和其他Field分开存放而在搜索时同时检索这两部分Field而提取出个完整Document 这要求两个索引包含Document数量必须相同  在创建索引时候可以同时创建多个IndexWriter将个Document根据需要拆分成多个包含部分FieldDocument并将这些Document分别添加到区别索引  而在搜索时则必须借助ParallelReader类来整合Directory dir1=FSDirectory.getDirectory [阅读全文] [PDF]
  1, 几种spanquerySpanTermQuery:检索效果完全同TermQuery但内部会记录些位置信息供SpanQuery其它API使用是其它属于SpanQueryQuery基础  SpanFirstQuery:查找方式为从Field内容起始位置开始在个固定宽度内查找所指定词条  SpanNearQuery:功能类似PharaseQuerySpanNearQuery查找所匹配不定是短语还有可能是另个SpanQuery查询结果作为整体考虑进行嵌套查询  SpanOrQuery:把所有SpanQuery查询结果综合起来作为检索结果  SpanNotQ [阅读全文] [PDF]
  这是很久以前做lucene 时整理总结现在已经不用去研究那些代码但还是分享出来给大家以帮助谢谢  1. 从Index开始  无论哪种搜索引擎都会需要自建个index所有搜词准确率及快速性很大程度上取决于这类问题因此在建索引文件时候我们首先要弄清楚lucene建索引接口及各类参数  Field是lucene重要组成部分其引出好些接口Filed InterfNamestoreindextokenStoreTermVectorKeywordYYYN(N)UnIndexedYYNNNTextY*(Y)(Y)NUnStoredY(N)(Y)(Y)*TextY(Y) [阅读全文] [PDF]
  高亮显示查询项  有个能使搜索引擎变得更友好办法那就是向你用户提供些搜索命中结果上下文而且更为重要是这样做是非常有用 最好例子就是本系统用户在查找天气Web服务时搜索结果如下图1所示每个命中结果包括了匹配文档 3行左右内容并且将查询项高亮显示出 来通常我们只需要对搜索项 上下文内容浏览眼就足以 了解该结果是否值得我们深入地进行研究  图4.1 高亮显示查询项  Highlighter 最近已经充分升级为个复杂而灵活工具Highlighter包括了 3个主要部分:段划分器(Fragmenter)、计分器(Scorer)和格式 化器(Formatter)这几 [阅读全文] [PDF]
  由于系统搜索速度直不理想今天决定用Lucene进行 索引然后全表检索  核心代码如下 packagenet.java2000.forum.util;  importjava.io.IOException;  importjava.sql.Connection;  importjava.sql.ResultSet;  importjava.sql.SQLException;  importjava.sql.Statement;  importjava.util.ArrayList;  importjava.util.Date;  importjava.ut [阅读全文] [PDF]
  Lucene 介绍  Lucene 是个基于 Java 全文信息检索工具包它不是个完整搜索应用而是为你应用提供索引和搜索功能Lucene 目前是 Apache Jakarta 家族中个开源项目也是目前最为流行基于 Java 开源全文检索工具包  目前已经有很多应用搜索功能是基于 Lucene 比如 Eclipse 帮助系统搜索功能Lucene 能够为文本类型数据建立索引所以你只要能把你要索引数据格式转化文本Lucene 就能对你文档进行索引和搜索比如你要对些 HTML 文档PDF 文档进行索引话你就首先需要把 HTML 文档和 PDF 文档转化成文本格式 [阅读全文] [PDF]
  Ingersoll认为这次版本中最大变化是新索引算法它使用了新in-memory模型来达到大幅速度提升据Ingersoll说单单是把Lucene 2.2 JAR换成Lucene 2.3 JAR就能在某些测试中把索引性能提速500%其他改变还包括:   改进索引管理——以前在索引过程中当合并内部索引文件时偶尔会出现长时间停顿现在已经消灭了这种现象另外现在也更容易实现其他途径去管理索引过程   对象池——Document、Field和Token例子现在可在索引分析中重用因此不但提升了分析速度还减少了索引过程中内 [阅读全文] [PDF]
  项目描述: 个很简单新闻模块,只涉及到数据库中 s表, 通过提交表单可以往s表中添加数据, 也可以输入关键字搜索s表中数据  目标:以用户输入为关键字,查找相关新闻帖子(如果帖子标题或标签和关键字相匹配)  缺点:只支持单关键字,  数据表:s 字段有 id, title(标题), tags(标签)...  按照我理解和应用把过程分为:(1)创建索引和(2)搜索应用 两个步骤  (1)创建索引:  我思路是每往数据库里添加条记录就把该数据中标题id及tags字段添加到索引记录中以备查询,以下代码在添加新闻类中:/**往数据库中添加条新闻记录**/News [阅读全文] [PDF]
1 2 > 共27条 分2页