Rss订阅

首页 »数据库 » mysql全文索引:MySQL全文搜索 »正文

mysql全文索引:MySQL全文搜索

来源: 发布时间:星期日, 2009年1月4日浏览:71次评论:0

="t18">全文索引在 MySQL 中是

个FULLTEXT类型索引

FULLTEXT索引用于MyISAM表

可以在CREATE TABLE时或的后使用ALTER TABLE或CREATE INDEX在CHAR、VARCHAR或TEXT列上创建

对于大

数据库

将数据装载到

个没有FULLTEXT索引

表中

然后再使用ALTER TABLE(或CREATE INDEX) 创建索引

这将是非常快

将数据装载到

个已经有FULLTEXT索引

表中

将是非常慢

全文搜索通过MATCH

完成

mysql> CREATE TABLE articles (
-> id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,
-> title VARCHAR(200),
-> body TEXT,
-> FULLTEXT (title,body)
-> );
Query OK, 0 rows affected (0.00 sec)

mysql> INSERT INTO articles VALUES
-> (NULL,'MySQL Tutorial', 'DBMS stands for DataBase ...'),
-> (NULL,'How To Use MySQL Efficiently', 'After you went through a ...'),
-> (NULL,'Optimising MySQL','In this tutorial we will show ...'),
-> (NULL,'1001 MySQL Tricks','1. Never run mysqld as root. 2. ...'),
-> (NULL,'MySQL vs. YourSQL', 'In the following database comparison ...'),
-> (NULL,'MySQL Security', 'When configured properly, MySQL ...');
Query OK, 6 rows affected (0.00 sec)
Records: 6 Duplicates: 0 Warnings: 0

mysql> SELECT * FROM articles
-> WHERE MATCH (title,body) AGAINST ('database');
+----+-------------------+------------------------------------------+
| id | title | body |
+----+-------------------+------------------------------------------+
| 5 | MySQL vs. YourSQL | In the following database comparison ... |
| 1 | MySQL Tutorial | DBMS stands for DataBase ... |
+----+-------------------+------------------------------------------+
2 rows in

(0.00 sec)

MATCH

对照

个文本集(包含在

个FULLTEXT索引中

个或多个列

列集)执行

个自然语言搜索

个

串

搜索

串做为AGAINST

参数被给定

搜索以忽略字母大小写

方式执行

对于表中

每个记录行

MATCH

个相关性值

即

在搜索

串和记录行在MATCH

列表中指定

列

文本的间

相似性尺度

当MATCH

被使用在

个WHERE子句中时 (参看上面

例子)

记录行被自动地以相关性从高到底

次序排序

相关性

计算是基于:词在记录行中

数目、在行中唯

词

数目、在集中词

全部数目和包含

个特殊词

文档(记录行)

数目

它也可以执行

个逻辑模式

搜索

这在下面

章节中被描述

前面

例子是

MATCH

使用上

些基本介绍说明

记录行以相似性递减

顺序返回

下

个举例显示如何检索

个明确

相似性值

如果即没有WHERE也没有ORDER BY子句

返回行是不排序

mysql> SELECT id,MATCH (title,body) AGAINST ('Tutorial') FROM articles;
+----+-----------------------------------------+
| id | MATCH (title,body) AGAINST ('Tutorial') |
+----+-----------------------------------------+
| 1 | 0.64840710366884 |
| 2 | 0 |
| 3 | 0.66266459031789 |
| 4 | 0 |
| 5 | 0 |
| 6 | 0 |
+----+-----------------------------------------+
6 rows in

(0.00 sec)下面

举例更复杂

点

查询返回相似性并依然以相似度递减

次序返回记录行

为了完成这个结果

你应该指定MATCH

两次

这不会引起附加

开销

MySQL 优化器会注意到两次同样

MATCH

并只

次全文搜索代码

mysql> SELECT id, body, MATCH (title,body) AGAINST
-> ('Security implications of running MySQL as root') AS score
-> FROM articles WHERE MATCH (title,body) AGAINST
-> ('Security implications of running MySQL as root');
+----+-------------------------------------+-----------------+
| id | body | score |
+----+-------------------------------------+-----------------+
| 4 | 1. Never run mysqld as root. 2. ... | 1.5055546709332 |
| 6 | When configured properly, MySQL ... | 1.31140957288 |
+----+-------------------------------------+-----------------+
2 rows in

(0.00 sec)MySQL 使用

个非常简单

剖析器来将文本分隔成词

个“词”是由文字、数据、“'”和“_”组成

任何

序列

任何在 stopword 列表上出现

或太短

(3 个

或更少

)

“word” 将被忽略

在集和查询中

每个合适

词根据其在集和查询中

重要性衡量

这样

个出现在多个文档中

词将有较低

权重(可能甚至有

个零权重)

在这个特定

集中

它有较低

语义值

否则

如果词是较少

它将得到

个较高

权重

然后

词

权重将被结合用于计算记录行

相似性

这样

个技术工作可很好地工作和大

集(实际上

它会小心地和的谐调)

对于非常小

表

词分类不足以充份地反应它们

语义值

有时这个模式可能产生奇怪

结果

mysql> SELECT * FROM articles WHERE MATCH (title,body) AGAINST ('MySQL');
Empty

(0.00 sec)在上面

例子中

搜索词MySQL却没有得到任何结果

这个词在超过

半

记录行中出现

同样

它被有效地处理为

个 stopword (即

个零语义值

词)

这是最理想

行为 --

个自然语言

查询不应该从

个 1GB

表中返回每个次行(second row)

匹配表中

半记录行

词很少可能找到相关文档

实际上

它可能会发现许多不相关

文档

我们都知道

当我们在互联网上通过搜索引擎试图搜索某些东西时

这会经常发生

这个原因

在这个特殊

数据集中

这样

行被设置

个低

语义值

到 4.0.1 时

MySQL 也可以使用IN BOOLEAN MODE修饰语来执行

个逻辑全文搜索

记录行(注意: 50%

阈值没有使用)

但是它没有包含词YourSQL

注意

个逻辑模式

搜索不会自动地以相似值

降序排序记录行

你可以从上面

结果出看得出来

最高

相似值(包含MySQL两次

那个) 最列在最后

而不是第

位

个逻辑全文搜索即使在没有

个FULLTEXT索引

情况下也可以工作

然而它慢些

逻辑全文搜索支持下面

操作符:

+

个领头

加号表示

该词必须出现在每个返回

记录行中

个领头

减号表示

该词必须不出现在每个返回

记录行中

缺省

(当既没有加号也没有负号被指定时)词是随意

但是包含它

记录行将被排列地更高

点

这个模仿没有IN BOOLEAN MODE修饰词

MATCH

... AGAINST

行为

< >
这两个操作符用于改变

个词

相似性值

基值

<操作符减少基值

>操作符则增加它

参看下面

举例

( )
圆括号用于对子表达式中

词分组

个领头

否定号

作用象

个否定操作符

引起行相似性

词

基值为负

它对标记

个噪声词很有用

个包含这样

词

记录将被排列得低

点

但是不会被完全

排除

这样可以使用-操作符

个星号是截断操作符

不想其它

操作符

它应该被追加到

个词后

不加在前面

"
短语

被包围在双引号"中

只匹配包含这个短语(字面上

就好像被键入

)

记录行

这里是

些举例:

apple banana
找至少包含上面词中

个

记录行
+apple +juice
... 两个词均在被包含
+apple mac

osh
... 包含词 “apple”

但是如果同时包含 “mac

osh”

它

排列将更高

些
+apple -mac

osh
... 包含 “apple” 但不包含 “mac

osh”
+apple +(>pie <strudel)
... 包含 “apple” 和 “pie”

或者包含

是 “apple” 和 “strudel” (以任何次序)

但是 “apple pie” 排列得比 “apple strudel” 要高

点
apple*
... 包含 “apple”

“apples”

“applesauce” 和 “applet”
"some words"
... 可以包含 “some words of wisdom”

但不是 “some noise words”
全文

限制
MATCH

所有参数必须是从来自于同

张表

列

同时必须是同

个FULLTEXT索引中

部分

除非MATCH

是IN BOOLEAN MODE

MATCH

列列表必须确切地匹配表

某

FULLTEXT索引中定义

列列表

除非MATCH

是IN BOOLEAN MODE

AGAINST

参数必须是

个常量

串

微调 MySQL 全文搜索
不幸地

全文搜索仍然只有很少

用户可调参数

虽然增加

些在 TODO 上排列很高

如果你有

个 MySQL 源码发行

你可以发挥对全文搜索

更多控制

注意

全文搜索为最佳

搜索效果

被仔细地调整了

修改默认值

行为

在大多数情况下

只会使搜索结果更糟

不要修改 MySQL

源代码

除非你知道你在做什么！

被索引

词

最小长度由 MySQL 变量ft_min_word_len指定

stopword 列表可以从ft_stopword_file变量指定

文件中读取

50% 阈值选择由所选择

特殊

衡量模式确定

为了禁止它

修改`myisam/ftdefs.h'文件中下面

行:
#

GWS_IN_USE GWS_PROB改为:
#

GWS_IN_USE GWS_FREQ然后重新编译 MySQL

在这种情况下

不需要重建索引

注意:使用了这个

将严重地减少 MySQL 为MATCH

提供足够

相似性值

能力

如果你确实需要搜索这样

公共词

最好使用IN BOOLEAN MODE

搜索代替

它不遵守 50%

阈值

有时

搜索引擎维护员希望更改使用于逻辑全文搜索

操作符

这些由变量ft_boolean_syntax定义

对于这些更改

要求你重建你

FULLTEXT索引

对于

个 MyISAM 表

最容易

重建索引文件

方式如下面

语句:
mysql> REPAIR TABLE tbl_name QUICK;全文搜索 TODO
使所有对FULLTEXT索引

操作更快
邻近(Proximity)操作符
对 "always-index words"

支持

他们可以是用户希望视为

个词处理

任意

串

例如 "C

"、"AS/400"、"TCP/IP"

等等
支持在MERGE表中

全文搜索
对多字节

支持
依照数据

语言建立 stopword 列表
Stemming (当然

依赖于数据

语言)
Generic user-suppliable UDF preparser.
使模式更加灵活 (通过为CREATE/ALTER TABLE中

FULLTEXT增加某些可调整参数)

标签：全文搜索引擎全文搜索 mysql全文检索 mysql全文索引

下载文章的 PDF文档电子版离线看

我顶

专注于互联网--专注于架构

首页 »数据库 » mysql全文索引:MySQL全文搜索 »正文

mysql全文索引:MySQL全文搜索

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章