sqlserver索引:有关SQL SERVER建立索引需要注意的问题疯狂代码！

="t18">---- 人们在使用SQL时往往会陷入

个误区

即太关注于所得

结果是否正确

而忽略了区别

实现思路方法的间可能存在

性能差异

这种性能差异在大型

或是复杂

数据库环境中(如联机事务处理OLTP或决策支持系统DSS)中表现得尤为明
显

笔者在工作实战中发现

不良

SQL往往来自于不恰当

索引设计、不充份

连接条件和不可优化

where子句

在对
它们进行适当

优化后

其运行速度有了明显地提高！下面我将从这 3个方面分别进行整理总结:

---- 为了更直观地介绍说明问题

所有例子中

SQL运行时间均经过测试

不超过１秒

均表示为(< 1秒)

---- 测试环境--
---- 主机:HP LH II
---- 主频:330MHZ
---- 内存:128兆
---- 操作系统:Operserver5.0.4
----数据库:Sybase11.0.3

、不合理

索引设计
----例:表record有620000行

试看在区别

索引下

下面几个 SQL

运行情况:
---- 1.在date上建有

个非群集索引

select count(*) from record where date >'19991201' and date < '19991214'and amount >2000 (25秒)
select date,sum(amount) from record group by date(55秒)
select count(*) from record where date >'19990901' and place in ('BJ','SH') (27秒)

---- 分析:
----date上有大量

重复值

在非群集索引下

数据在物理上随机存放在数据页上

在范围查找时

必须执行

次表扫描才能找到这

范围内

全部行

---- 2.在date上

个群集索引

select count(*) from record where date >'19991201' and date < '19991214' and amount >2000(14秒)
select date,sum(amount) from record group by date(28秒)
select count(*) from record where date >'19990901' and place in ('BJ','SH')(14秒)

---- 分析:
---- 在群集索引下

数据在物理上按顺序在数据页上

重复值也排列在

起

因而在范围查找时

可以先找到这个范围

起末点

且只在这个范围内扫描数据页

避免了大范围扫描

提高了查询速度

---- 3.在place

date

amount上

组合索引

select count(*) from record where date >'19991201' and date < '19991214' and amount >2000(26秒)
select date,sum(amount) from record group by date(27秒)
select count(*) from record where date >'19990901' and place in ('BJ, 'SH')(< 1秒)

---- 分析:
---- 这是

个不很合理

组合索引

它

前导列是place

第

和第 2条SQL没有引用place

因此也没有利用上索引；第 3个SQL使用了place

且引用

所有列都包含在组合索引中

形成了索引覆盖

所以它

速度是非常快

---- 4.在date

place

amount上

组合索引
select count(*) from record where date >'19991201' and date < '19991214' and amount >2000(< 1秒)
select date,sum(amount) from record group by date(11秒)
select count(*) from record where date >'19990901' and place in ('BJ','SH')(< 1秒)

---- 分析:
---- 这是

个合理

组合索引

它将date作为前导列

使每个SQL都可以利用索引

并且在第

和第 3个SQL中形成了索引覆盖

因而性能达到了最优

---- 5.整理总结:

---- 缺省情况下建立

索引是非群集索引

但有时它并不是最佳

；合理

索引设计要建立在对各种查询

分析和预测
上

般来说:

---- ①.有大量重复值、且经常有范围查询

(between, >,<

>=,< =)和order by
、group by发生

列

可考虑建立群集索引；

---- ②.经常同时存取多列

且每列都含有重复值可考虑建立组合索引；

---- ③.组合索引要尽量使关键查询形成索引覆盖

其前导列

定是使用最频繁

列

2、不充份

连接条件:
---- 例:表card有7896行

在card_no上有

个非聚集索引

表account有191122行

在 account_no上有

个非聚集索引

试看在区别

表连接条件下

两个SQL

执行情况:

select sum(a.amount) from account a,card b where a.card_no = b.card_no(20秒)

---- 将SQL改为:
select sum(a.amount) from account a,card b where a.card_no = b.card_no and a.account_no=b.account_no(< 1秒)

---- 分析:
---- 在第

个连接条件下

最佳查询方案是将account作外层表

card作内层表

利用card上

索引

其I/O次数可由以下公式估算为:

---- 外层表account上

22541页+(外层表account

191122行*内层表card上对应外层表第

行所要查找

3页)=595907次I/O

---- 在第 2个连接条件下

最佳查询方案是将card作外层表

account作内层表

利用account上

索引

其I/O次数可由以下公式估算为:

---- 外层表card上

1944页+(外层表card

7896行*内层表account上对应外层表每

行所要查找

4页)= 33528次I/O

---- 可见

只有充份

连接条件

真正

最佳方案才会被执行

---- 整理总结:

---- 1.多表操作在被实际执行前

查询优化器会根据连接条件

列出几组可能

连接方案并从中找出系统开销最小

最佳方案

连接条件要充份考虑带有索引

表、行数多

表；内外表

选择可由公式:外层表中

匹配行数*内层表中每

次查找

次数确定

乘积最小为最佳方案

---- 2.查看执行方案

思路方法-- 用

showplanon

打开showplan选项

就可以看到连接顺序、使用何种索引

信息；想
看更详细

信息

需用sa角色执行dbcc(3604,310,302)

3、不可优化

where子句
---- 1.例:下列SQL条件语句中

列都建有恰当

索引

但执行速度却非常慢:

select * from record where sub

(card_no,1,4)='5378'(13秒)
select * from record where amount/30< 1000(11秒)
select * from record where convert(char(10),date,112)='19991201'(10秒)

---- 分析:
---- where子句中对列

任何操作结果都是在SQL运行时逐列计算得到

因此它不得不进行表搜索

而没有使用该列上面

索引；如果这些结果在查询编译时就能得到

那么就可以被SQL优化器优化

使用索引

避免表搜索

因此将SQL重写成
下面这样:

select * from record where card_no like '5378%'(< 1秒)
select * from record where amount < 1000*30(< 1秒)
select * from record where date= '1999/12/01' (< 1秒)

---- 你会发现SQL明显快起来！

---- 2.例:表stuff有200000行

id_no上有非群集索引

请看下面这个SQL:

select count(*) from stuff where id_no in('0','1')(23秒)

---- 分析:
---- where条件中

'in'在逻辑上相当于'or'

所以语法分析器会将in ('0','1')转化为id_no ='0' or id_no='1'来执行

我们期望它会根据每个or子句分别查找

再将结果相加

这样可以利用id_no上

索引；但实际上(根据showplan),它却采用了"OR策略"

即先取出满足每个or子句

行

存入临时数据库

工作表中

再建立唯

索引以去掉重复行

最后从这个临时表中计算结果

因此

实际过程没有利用id_no上索引

并且完成时间还要受tempdb数据库性能

影响

---- 实战证明

表

行数越多

工作表

性能就越差

当stuff有620000行时

执行时间竟达到220秒！还不如将or子句分
开:

select count(*) from stuff where id_no='0'
select count(*) from stuff where id_no='1'

---- 得到两个结果

再作

次加法合算

每句都使用了索引

执行时间只有3秒

在620000行下

时间也只有4秒

或者

用更好

思路方法

写

个简单

存储过程:
create proc count_stuff as
declare @a

declare @b

declare @c

declare @d char(10)
begin
select @a=count(*) from stuff where id_no='0'
select @b=count(*) from stuff where id_no='1'
end
select @c=@a+@b
select @d=convert(char(10),@c)
pr

@d

---- 直接算出结果

执行时间同上面

样快！
---- 整理总结:

---- 可见

所谓优化即where子句利用了索引

不可优化即发生了表扫描或额外开销

---- 1.任何对列

操作都将导致表扫描

它包括数据库

、计算表达式等等

查询时要尽可能将操作移至等号右边

---- 2.in、or子句常会使用工作表

使索引失效；如果不产生大量重复值

可以考虑把子句拆开；拆开

子句中应该包含索引

---- 3.要善于使用存储过程

它使SQL变得更加灵活和高效

---- 从以上这些例子可以看出

SQL优化

实质就是在结果正确

前提下

用优化器可以识别

语句

充份利用索引

减少表扫描

I/O次数

尽量避免表搜索

发生

其实SQL

性能优化是

个复杂

过程

上述这些只是在应用层次

种体现

深入研究还会涉及数据库层

资源配置、网络层

流量控制以及操作系统层

总体设计

sqlserver索引:有关SQL SERVER建立索引需要注意的问题

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注