缓冲区溢出:安全编程: 防止缓冲区溢出疯狂代码！

　　随后将展示 C/C

中防止缓冲区溢出

各种思路方法

同时包括静态调整大小

思路方法(比如标准

C 库和 OpenBSD/strlcpy 解决方案)和动态调整大小

解决方案

以及

些将为您提供帮助

工具

最后

本文以

些有关缓冲区溢出缺陷

未来发展形势

预测来结束全文

讨论

　　1988 年 11 月

许多组织不得不

“Morris 蠕虫”而切断 Internet 连接

“Morris 蠕虫”是 23 岁

员 Robert Tappan Morris 编写

用于攻击 VAX 和 Sun 机器

据有关方面估计

这个

大约使得整个 Internet

10% 崩溃

2001 年 7 月

另

个名为“Code Red”

蠕虫病毒最终导致了全球运行微软

IIS Web Server

300,000 多台计算机受到攻击

2003 年 1 月

“Slammer”(也称为“Sapphire”)蠕虫利用 Microsoft SQL Server 2000 中

个缺陷

使得南韩和日本

部分 Internet 崩溃

中断了芬兰

电话服务

并且使得美国航空订票系统、信用卡网络和自动出纳机运行缓慢

所有这些攻击 ―― 以及其他许多攻击

都利用了

个称做为缓冲区溢出

缺陷

　　1999 年 Bugtraq(

个讨论安全缺陷

邮件列表)进行

次非正式调查发现

3分的 2

参和者认为第

号

缺陷就是缓冲区溢出(要了解相关背景

请参阅本文后面参考资料部分列出

“Buffer Overflows: Attacks and Defenses for the Vulnerability of the Decade”

文)

从 1997 年到 2002 年 3 月

CERT/CC 发出

半数安全警报都基于缓冲区缺陷

　　如果希望自己

是安全

您需要知道什么是缓冲区溢出

如何防止它们

可以采用哪些最新

自动化工具来防止它们(以及为什么这些工具还不足够)

还有如何在您自己

中防止它们

　　什么是缓冲区溢出？

　　缓冲区以前可能被定义为“包含相同数据类型

例子

个连续计算机内存块”

在 C 和 C

中

缓冲区通常是使用

和诸如 malloc

和

这样

内存分配例程来实现

极其常见

缓冲区种类是简单

溢出是指数据被添加到分配给该缓冲区

内存块的外

　　如果攻击者能够导致缓冲区溢出

那么它就能控制

中

其他值

虽然存在许多利用缓冲区溢出

思路方法

不过最常见

思路方法还是“stack-smashing”攻击

Elias Levy (又名为 Aleph One)

篇经典文章“Smashing the Stack for Fun and Profit”解释了 stack-smashing 攻击

Elias Levy 是 Bugtraq 邮件列表(请参阅参考资料以获得相关链接)

前任主持人

　　为了理解 stack-smashing 攻击(或其他任何缓冲区攻击)是如何进行

您需要了解

些有关计算机在机器语言级实际如何工作

知识

在类 UNIX 系统上

每个进程都可以划分为 3个主要区域:文本、数据和堆栈

文本区域包括代码和只读数据

通常不能对它执行写入操作

数据区域同时包括静态分配

内存(比如全局和静态数据)和动态分配

内存(通常称为堆)

堆栈区域用于允许

/思路方法

；它用于记录

完成的后

返回位置

存储

中使用

本地变量

向

传递参数

以及从

返回值

每当

个

就会使用

个新

堆栈帧来支持该

了解这些的后

让我们来考察

个简单

　　清单 1.

个简单

void function1( a,  b,  c) {
　 char buffer1[5];
　 gets(buffer1); /* DON'T DO THIS */
}
void  {
　function(1,2,3);
}

　　假设使用 gcc 来编译清单 1 中

简单

在 X86 上

Linux 中运行

并且紧跟在对 gets

的后中止

此时

内存内容看起来像什么样子呢？答案是它看起来类似图 1

其中展示了从左边

低位地址到右边

高位地址排序

内存布局

　　图 1. 堆栈视图

内存

底部内存

顶部
buffer1 sfp ret a b c
<--- 增长 --- [ ] [ ] [ ] [ ] [ ] [ ] ...
堆栈

顶部堆栈

底部

　　许多计算机处理器

包括所有 x86 处理器

都支持从高位地址向低位地址“倒”增长堆栈

因此

每当

个

另

个

数据将被添加到左边(低位地址)

直至系统

堆栈空间耗尽

在这个例子中

当

function1

时

它将 c

值压入堆栈

然后压入 b

值

最后压入 a

值

的后它压入

(ret) 值

这个值在 function1

完成时告诉 function1

返回到

中

何处

它还把所谓

“已保存

帧指针(saved frame po

sfp)”记录到堆栈上；这并不是必须保存

内容

此处我们不需要理解它

在任何情况下

function1

在启动以后

它会为 buffer1

预留空间

这在图 1 中显示为具有

个低地址位置

　　现在假设攻击者发送了超过 buffer1

所能处理

数据

接下来会发生什么情况呢？当然

C 和 C

员不会自动检查这个问题

因此除非

员明确地阻止它

否则下

个值将进入内存中

“下

个”位置

那意味着攻击者能够改写 sfp (即已保存

帧指针)

然后改写 ret (返回地址)

的后

当 function1

完成时

它将“返回”―― 不过不是返回到

而是返回到攻击者想要运行

任何代码

　　通常攻击者会使用它想要运行

恶意代码来使缓冲区溢出

然后攻击者会更改返回值以指向它们已发送

恶意代码

这意味着攻击者本质上能够在

个操作中完成整个攻击！Aleph On

文章(请参阅参考资料)详细介绍了这样

攻击代码是如何创建

例如

将

个 ASCII 0

压入缓冲区通常是很困难

而该文介绍了攻击者

般如何能够解决这个问题

　　除了 smashing-stack 和更改返回地址外

还存在利用缓冲区溢出缺陷

其他途径

和改写返回地址区别

攻击者可以 smashing-stack(使堆栈上

缓冲区溢出)

然后改写局部变量以利用缓冲区溢出缺陷

缓冲区根本就不必在堆栈上 ―― 它可以是堆中动态分配

内存(也称为“malloc”或“

”区域)

或者在某些静态分配

内存中(比如“global”或“

”内存)

基本上

如果攻击者能够溢出缓冲区

边界

麻烦或许就会找上你了

然而

最危险

缓冲区溢出攻击就是 stack-smashing 攻击

如果

对攻击者很脆弱

攻击者获得整个机器

控制权就特别容易

　　为什么缓冲区溢出如此常见？

　　在几乎所有计算机语言中

不管是新

语言还是旧

语言

使缓冲区溢出

任何尝试通常都会被该语言本身自动检测并阻止(比如通过引发

个异常或根据需要给缓冲区添加更多空间)

但是有两种语言不是这样:C 和 C

语言

C 和 C

语言通常只是让额外

数据乱写到其余内存

任何位置

而这种情况可能被利用从而导致恐怖

结果

更糟糕

是

用 C 和 C

编写正确

代码来始终如

地处理缓冲区溢出则更为困难；很容易就会意外地导致缓冲区溢出

除了 C 和 C

使用得非常广泛外

上述这些可能都是不相关

事实；例如

Red Hat Linux 7.1 中 86%

代码行都是用 C 或 C

编写

因此

大量

代码对这个问题都是脆弱

实现语言无法保护代码避免这个问题

　　在 C 和 C

语言本身中

这个问题是不容易解决

该问题基于 C 语言

根本设计决定(特别是 C 语言中指针和

处理方式)

由于 C

是最兼容

C 语言超集

它也具有相同

问题

存在

些能防止这个问题

C/C

兼容版本

但是它们存在极其严重

性能问题

而且

旦改变 C 语言来防止这个问题

它就不再是 C 语言了

许多语言(比如 Java 和 C#)在语法上类似 C

但它们实际上是区别

语言

将现有 C 或 C

改为使用那些语言是

项艰巨

任务

　　然而

其他语言

用户也不应该沾沾自喜

有些语言存在允许缓冲区溢出发生

“转义”子句

Ada

般会检测和防止缓冲区溢出(即针对这样

尝试引发

个异常)

但是区别

可能会禁用这个特性

般会检测和防止缓冲区溢出

但是它允许

员将某些例程定义为“不安全

”

而这样

代码可能会导致缓冲区溢出

因此如果您使用那些转义机制

就需要使用 C/C

所必须使用

相同种类

保护机制

许多语言都是用 C 语言来实现

(至少部分是用 C 语言来实现

)

并且用任何语言编写

所有

本质上都依赖用 C 或 C

编写

库

因此

所有

都会继承那些问题

所以了解这些问题是很重要

　　导致缓冲区溢出

常见 C 和 C

　　从根本上讲

在

将数据读入或复制到缓冲区中

任何时候

它需要在复制的前检查是否有足够

空间

能够容易看出来

异常就不可能会发生 ―― 但是

通常会随时间而变更

从而使得不可能成为可能

　　遗憾

是

C 和 C

附带

大量危险

(或普遍使用

库)甚至连这点(指检查空间)也无法做到

对这些

任何使用都是

个警告信号

除非慎重地使用它们

否则它们就会成为

缺陷

您不需要记住这些

列表；我

真正目

是介绍说明这个问题是多么普遍

这些

包括 strcpy(3)、strcat(3)、spr

f(3) (及其同类 vspr

f(3) )和 gets(3)

scanf

集( scanf(3)、fscanf(3)、sscanf(3)、vscanf(3)、vsscanf(3) 和 vfscanf(3) )可能会导致问题

使用

个没有定义最大长度

格式是很容易

(当读取不受信任

输入时

使用格式“%s”总是

个

)

　　其他危险

包括 realpath(3)、getopt(3)、getpass(3)、streadd(3)、strecpy(3) 和 strtrns(3)

从理论上讲

snpr

应该是相对安全

―― 在现代 GNU/Linux 系统中

确是这样

但是非常老

UNIX 和 Linux 系统没有实现 snpr

所应该实现

保护机制

　　Microsoft

库中还有在相应平台上导致同类问题

其他

(这些

包括 wcscpy

、_tcscpy

、_mbscpy

、wcscat

、_tcscat

、_mbscat

和 CopyMemory

)

注意

如果使用 Microsoft

MultiByteToWideChar

还存在

个常见

危险

―― 该

需要

个最大尺寸作为

数目

但是

员经常将该尺寸以字节计(更普遍

需要)

结果导致缓冲区溢出缺陷

　　另

个问题是 C 和 C

对整数具有非常弱

类型检查

般不会检测操作这些整数

问题

由于它们要求

员手工做所有

问题检测工作

因此以某种可被利用

方式不正确地操作那些整数是很容易

特别是

当您需要跟踪缓冲区长度或读取某个内容

长度时

通常就是这种情况

但是如果使用

个有符号

值来存储这个长度值会发生什么情况呢 ―― 攻击者会使它“成为负值”

然后把该数据解释为

个实际上很大

正值吗？当数字值在区别

尺寸的间转换时

攻击者会利用这个操作吗？数值溢出可被利用吗？有时处理整数

方式会导致

缺陷

　　防止缓冲区溢出

新技术

　　当然

要让

员不犯常见

是很难

而让

(以及

员)改为使用另

种语言通常更为困难

那么为何不让底层系统自动保护

避免这些问题呢？最起码

避免 stack-smashing 攻击是

件好事

stack-smashing 攻击是特别容易做到

般来说

更改底层系统以避免常见

安全问题是

个极好

想法

我们在本文后面也会遇到这个主题

事实证明存在许多可用

防御措施

而

些最受欢迎

措施可分组为以下类别:

　　基于探测思路方法(canary)

防御

这包括 StackGuard(由 Immunix 所使用)、ProPolice(由 OpenBSD 所使用)和 Microsoft

/GS 选项

　　非执行

堆栈防御

这包括 Solar Designer

non-exec 补丁(由 OpenWall 所使用)和 exec shield(由 Red Hat/Fedora 所使用)

　　其他思路方法

这包括 libsafe(由 Mandrake 所使用)和堆栈分割思路方法

　　遗憾

是

迄今所见

所有思路方法都具有弱点

因此它们不是万能药

但是它们会提供

些帮助

　　基于探测思路方法

防御

　　研究人员 Crispen Cowan 创建了

个称为 StackGuard

有趣思路方法

Stackguard 修改 C 编译器(gcc)

以便将

个“探测”值插入到返回地址

前面

“探测仪”就像煤矿中

探测仪:它在某个地方出故障时发出警告

在任何

返回的前

它执行检查以确保探测值没有改变

如果攻击者改写返回地址(作为 stack-smashing 攻击

部分)

探测仪

值或许就会改变

系统内就会相应地中止

这是

种有用

思路方法

不过要注意这种思路方法无法防止缓冲区溢出改写其他值(攻击者仍然能够利用这些值来攻击系统)

人们也曾扩展这种思路方法来保护其他值(比如堆上

值)

Stackguard(以及其他防御措施)由 Immunix 所使用

　　IBM

stack-smashing 保护

(ssp

起初名为 ProPolice)是 StackGuard

思路方法

种变化形式

像 StackGuard

样

ssp 使用

个修改过

编译器在

中插入

个探测仪以检测堆栈溢出

然而

它给这种基本

思路添加了

些有趣

变化

它对存储局部变量

位置进行重新排序

并复制

参数中

指针

以便它们也在任何

的前

这样增强了ssp

保护能力；它意味着缓冲区溢出不会修改指针值(否则能够控制指针

攻击者就能使用指针来控制

保存数据

位置)

默认情况下

它不会检测所有

而只是检测确实需要保护

(主要是使用

)

从理论上讲

这样会稍微削弱保护能力

但是这种默认行为改进了性能

同时仍然能够防止大多数问题

考虑到实用

原因

它们以独立于体系结构

方式使用 gcc 来实现它们

思路方法

从而使其更易于运用

从 2003 年 5 月

发布版本开始

广受赞誉

OpenBSD(它重点关注安全性)在他们

整个发行套件中使用了 ssp(也称为 ProPolice)

　　Microsoft 基于 StackGuard

成果

添加了

个编译器标记(/GS)来实现其 C 编译器中

探测仪

　　非执行

堆栈防御

　　另

种思路方法首先使得在堆栈上执行代码变得不可能

遗憾

是

x86 处理器(最常见

处理器)

内存保护机制无法容易地支持这点；通常

如果

个内存页是可读

它就是可执行

个名叫 Solar Designer

开发人员想出了

种内核和处理器机制

聪明组合

为 Linux 内核创建了

个“非执行

堆栈补丁”；有了这个补丁

堆栈上

就不再能够像通常

那样在 x86 上运行

事实证明在有些情况下

可执行

需要在堆栈上；这包括信号处理和跳板代码(trampoline)处理

trampoline 是有时由编译器(比如 GNAT Ada 编译器)生成

奇妙结构

用以支持像嵌套子例程的类

结构

Solar Designer 还解决了如何在防止攻击

同时使这些特殊情况不受影响

问题

　　Linux 中实现这个目

最初补丁在 1998 年被 Linus Torvalds 拒绝

这是

个有趣

原因

即使不能将代码放到堆栈上

攻击者也可以利用缓冲区溢出来使

“返回”某个现有

子例程(比如 C 库中

某个子例程)

从而进行攻击

简而言的

仅只是拥有非可执行

堆栈是不足够

段时间的后

人们又想出了

种防止该问题

新思路:将所有可执行代码转移到

个称为“ASCII 保护(ASCII armor)”区域

内存区

要理解这是如何工作

就必须知道攻击者通常不能使用

般

缓冲区溢出攻击来插入 ASCII NUL

(0)这个事实

这意味着攻击者会发现

要使

个

返回包含 0

地址是很困难

由于这个事实

将所有可执行代码转移到包含 0

地址就会使得攻击该

困难多了

　　具有这个属性

最大连续内存范围是从 0 到 0x01010100

组内存地址

因此它们就被命名为 ASCII 保护区域(还有具有此属性

其他地址

但它们是分散

)

和非可执行

堆栈相结合

这种思路方法就相当有价值了:非可执行

堆栈阻止攻击者发送可执行代码

而 ASCII 保护内存使得攻击者难于通过利用现有代码来绕过非可执行堆栈

这样将保护

代码避免堆栈、缓冲区和

指针溢出

而且全都不需重新编译

　　然而

ASCII 保护内存并不适用于所有

；大

也许无法装入 ASCII 保护内存区域(因此这种保护是不完美

)

而且有时攻击者能够将 0 插入目

地址

此外

有些实现不支持跳板代码

因此可能必须对需要这种保护

禁用该特性

Red Hat

Ingo Molnar 在他

“exec-shield”补丁中实现了这种思想

该补丁由 Fedora 核心(可从 Red Hat 获得它

免费版本)所使用

最新版本

OpenWall GNU/Linux (OWL)使用了 Solar Designer 提供

这种思路方法

实现(请参阅参考资料以获得指向这些版本

链接)

　　其他思路方法

　　还有其他许多思路方法

种思路方法就是使标准库对攻击更具抵抗力

Lucent Technologies 开发了 Libsafe

这是多个标准 C 库

包装

也就是像 strcpy

这样已知

对 stack-smashing 攻击很脆弱

Libsafe 是在 LGPL 下授予许可证

开放源代码软件Software

那些

libsafe 版本执行相关

检查

确保

改写不会超出堆栈桢

然而

这种思路方法仅保护那些特定

而不是从总体上防止堆栈溢出缺陷

并且它仅保护堆栈

而不保护堆栈中

局部变量

它们

最初实现使用了 LD_PRELOAD

而这可能和其他

产生冲突

Linux

Mandrake 发行套件(从 7.1 版开始)包括了 libsafe

　　另

种思路方法称为“分割控制和数据堆栈”―― 基本

思路是将堆栈分割为两个堆栈

个用于存储控制信息(比如“返回”地址)

另

个用于控制其他所有数据

Xu et al. 在 gcc 中实现了这种思路方法

StackShield 在汇编

中实现了这种思路方法

这样使得操纵返回地址困难多了

但它不会阻止改变

数据

缓冲区溢出攻击

　　事实上还有其他思路方法

包括随机化可执行

位置；Crispen

“Po

Guard”将这种探测仪思想引申到了堆中

等等

如何保护当今

计算机现在已成了

项活跃

研究任务

般保护是不足够

　　如此多区别

思路方法意味着什么呢？对用户来说

好

面在于大量创新

思路方法正在试验的中；长期看来

这种“竞争”会更容易看出哪种思路方法最好

而且

这种多样性还使得攻击者躲避所有这些思路方法更加困难

然而

这种多样性也意味着开发人员需要避免编写会干扰其中任何

种思路方法

代码

这在实战上是很容易

；只要不编写对堆栈桢执行低级操作或对堆栈

布局作假设

代码就行了

即使不存在这些思路方法

这也是

个很好

建议

　　操作系统供应商需要参和进来就相当明显了:至少挑选

种思路方法

并使用它

缓冲区溢出是第

号

问题

这些思路方法中最好

思路方法通常能够减轻发行套件中几乎半数已知缺陷

影响

可以证明

不管是基于探测仪

思路方法更好

还是基于非可执行堆栈

思路方法更好

它们都具有各自

优点

可以将它们结合起来使用

但是少数思路方法不支持这样使用

附加

性能损失使得这样做不值得

我并没有其他意思

至少就这些思路方法本身而言是这样；libsafe 和分割控制及数据堆栈

思路方法在它们所提供

保护方面都具有局限性

当然

最糟糕

解决办法就是根本不对这个第

号

缺陷提供保护

还没有实现

种思路方法

软件Software供应商需要立即计划这样做

从 2004 年开始

用户应该开始避免使用这样

操作系统

即它们至少没有对缓冲区溢出提供某种自动保护机制

　　然而

没有哪种思路方法允许开发人员忽略缓冲区溢出

所有这些思路方法都能够被攻击者破坏

攻击者也许能够通过改变

中其他数据

值来利用缓冲区溢出；没有哪种思路方法能够防止这点

如果能够插入某些难于创建

值(比如 NUL

)

那么这其中

许多思路方法都能被攻击者绕开；随着多媒体和压缩数据变得更加普遍

攻击者绕开这些思路方法就更容易了

从根本上讲

所有这些思路方法都能减轻从

接管攻击到拒绝服务攻击

缓冲区溢出攻击所带来

破坏

遗憾

是

随着计算机系统在更多关键场合

使用

即使拒绝服务通常也是不可接受

因而

尽管发行套件应该至少包括

种适当

防御思路方法

并且开发人员应该使用(而不是反对)那些思路方法

但是开发人员仍然需要最初就编写无缺陷

软件Software

　　C/C

解决方案

　　针对缓冲区溢出

种简单解决办法就是转为使用能够防止缓冲区溢出

语言

毕竟

除了 C 和 C

外

几乎每种高级语言都具有有效防止缓冲区溢出

内置机制

但是许多开发人员

种种原因还是选择使用 C 和 C

那么您能做什么呢？

　　事实证明存在许多防止缓冲区溢出

区别技术

但它们都可划分为以下两种思路方法:静态分配

缓冲区和动态分配

缓冲区

首先

我们将讲述这两种思路方法分别是什么

然后

我们将讨论静态思路方法

两个例子(标准 C strncpy/strncat 和 OpenBSD

strlcpy/strlcat )

接着讨论动态思路方法

两个例子(SafeStr 和 C

std::

)

　　重要选择:静态和动态分配

缓冲区

　　缓冲区具有有限

空间

因此实际上存在处理缓冲区空间不足

两种可能方式

　　“静态分配

缓冲区”思路方法:也就是当缓冲区用完时

您抱怨并拒绝为缓冲区增加任何空间

　　“动态分配

缓冲区”思路方法:也就是当缓冲区用完时

动态地将缓冲区大小调整到更大

尺寸

直至用完所有内存

　　静态思路方法具有

些缺点

事实上

静态思路方法有时可能会带来区别

缺陷

静态思路方法基本上就是丢弃“过多

”数据

如果

无论如何还是使用了结果数据

那么攻击者会尝试填满缓冲区

以便在数据被截断时使用他希望

任何内容来填充缓冲区

如果使用静态思路方法

应该确保攻击者能够做

最糟糕

事情不会使得预先

假设无效

而且检查最终结果也是

个好主意

　　动态思路方法具有许多优点:它们能够向上适用于更大

问题(而不是带来任意

限制)

而且它们没有导致安全问题

截断问题

但它们也具有自身

问题:在接受任意大小

数据时

可能会遇到内存不足

情况 ―― 而这在输入时也许不会发生

任何内存分配都可能会失败

而编写真正很好地处理该问题

C 或 C

是很困难

甚至在内存真正用完的前

也可能导致计算机变得太忙而不可用

简而言的

动态思路方法通常使得攻击者发起拒绝服务攻击变得更加容易

因此仍然需要限制输入

此外

必须小心设计

来处理任意位置

内存耗尽问题

而这不是

件容易

事情

　　标准 C 库思路方法

　　最简单

思路方法的

是简单地使用那些设计用于防止缓冲区溢出

标准 C 库

(即使在使用 C

这也是可行

)

特别是 strncpy(3) 和 strncat(3)

这些标准 C 库

般支持静态分配思路方法

也就是在数据无法装入缓冲区时丢弃它

这种思路方法

最大优点在于

您可以肯定这些

在任何机器上都可用

并且任何 C/C

开发人员都会了解它们

许许多多

都是以这种方式编写

并且确实可行

　　遗憾

是

要正确地做到这点却是令人吃惊

困难

下面是其中

些问题:

　　strncpy(3) 和 strncat(3) 都要求您给出剩余

空间

而不是给出缓冲区

总大小

这的所以会成为问题是

虽然缓冲区

大小

经分配就不会变化

但是缓冲区中剩余

空间量会在每次添加或删除数据时发生变化

这意味着

员必须始终跟踪或重新计算剩余

空间

这种跟踪或重新计算很容易出错

而任何

都可能给缓冲区攻击打开方便的门

　　在发生了溢出(和数据丢失)时

两个

都不会给出简单

报告

因此如果要检测缓冲区溢出

员就必须做更多

工作

　　如果源

串至少和目标

样长

那么

strncpy(3) 还不会使用 NUL 来结束

串；这可能会在以后导致严重破坏

因而

在运行 strncpy(3) 的后

您通常需要重新结束目标

串

strncpy(3) 还可以用来仅把源

串

部分复制到目标中

在执行这个操作时

要复制

数目通常是基于源

串

相关信息来计算

这样

危险的处在于

如果忘了考虑可用

缓冲区空间

那么即使在使用 strncpy(3) 时也可能会留下缓冲区攻击隐患

这个

也不会复制 NUL

这可能也是

个问题

　　可以通过

种防止缓冲区溢出

方式使用 spr

但是意外地留下缓冲区溢出攻击隐患是非常容易

spr

使用

个控制

串来指定输出格式

该控制

串通常包括“ %s ”(

串输出)

如果指定

串输出

精确指定符(比如 %.10s )

那么您就能够通过指定输出

最大长度来防止缓冲区溢出

甚至可以使用“ * ”作为精确指定符(比如“ %.*s ”)

这样您就可以传入

个最大长度值

而不是在控制

串中嵌入最大长度值

这样

问题在于

很容易就会不正确地使用 spr

个“字段宽度”(比如“ %10s ”)仅指定了最小长度 ―― 而不是最大长度

“字段宽度”指定符会留下缓冲区溢出隐患

而字段宽度和精确宽度指定符看起来几乎完全相同 ―― 唯

区别在于安全

版本具有

个点号

另

个问题在于

精确字段仅指定

个参数

最大长度

但是缓冲区需要针对组合起来

数据

最大尺寸调整大小

　　scanf

系列

具有

个最大宽度值

至少 IEEE Standard 1003-2001 清楚地规定这些

定不能读取超过最大宽度

数据

遗憾

是

并非所有规范标准都清楚地规定了这

点

我们不清楚是否所有实现都正确地实现了这些限制(这在如今

GNU/Linux 系统上就不能正确地工作)

如果您依赖它

那么在安装或

化期间运行小测试来确保它能正确工作

这样做将是明智

　　strncpy(3) 还存在

个恼人

性能问题

从理论上讲

strncpy(3) 是 strcpy(3)

安全替代者

但是 strncpy(3) 还会在源

串结束时使用 NUL 来填充整个目标空间

这是很奇怪

实际上并不存在这样做

很好理由

但是它从

开始就是这样

并且有些

还依赖这个特性

这意味着从 strcpy(3) 切换到 strncpy(3) 会降低性能 ―― 这在如今

计算机上通常不是

个严重

问题

但它仍然是有害

　　那么可以使用标准 C 库

例程来防止缓冲区溢出吗？是

不过并不容易

如果计划沿着这条路线走

您需要理解上述

所有要点

或者

您可以使用下面几节将要讲述

种替代思路方法

　　OpenBSD

strlcpy/strlcat

　　OpenBSD 开发人员开发了

种区别

静态思路方法

这种思路方法基于他们开发

新

strlcpy(3) 和 strlcat(3)

这些

执行

串复制和拼接

不过更不容易出错

这些

原型如下:

size_t strlcpy (char *dst, const char *src, size_t size);
size_t strlcat (char *dst, const char *src, size_t size);

　　strlcpy

把以 NUL 结尾

串从“ src ”复制到“ dst ”(最多 size-1 个

)

strlcat

把以 NUL 结尾

串 src 附加到 dst

结尾(但是目标中

数目将不超过 size-1)

　　初看起来

它们

原型和标准 C 库

并没有多大区别

但是事实上

它们的间存在

些显著区别

这些

都接受目标

总大小(而不是剩余空间)作为参数

这意味着您不必连续地重新计算空间大小

而这是

项易于出错

任务

此外

只要目标

大小至少为 1

两个

都保证目标将以 NUL 结尾(您不能将任何内容放入零长度

缓冲区)

如果没有发生缓冲区溢出

返回值始终是组合

串

长度；这使得检测缓冲区溢出真正变得容易了

　　遗憾

是

strlcpy(3) 和 strlcat(3) 并不是在类 UNIX 系统

标准库中普遍可用

OpenBSD 和 Solaris 将它们内置在 <

.h> 中

但是 GNU/Linux 系统却不是这样

这并不是

件那么困难

事情；

当底层系统没有提供它们时

您甚至可以将

些小

直接包括在自己

源代码中

　　SafeStr

　　Messier 和 Viega 开发了“SafeStr”库

这是

种用于 C

动态思路方法

它自动根据需要调整

串

大小

使用 malloc

实现所使用

相同窍门技巧

Safestr

串很容易转换为常规

C“ char * ”

串:safestr 在传递指针“的前”

地址处存储重要信息

这种技术

优点在于

在现有

中使用 SafeStr 将会很容易

SafeStr 还支持“只读”和“受信任”

串

这也可能是有用

这种思路方法

个问题在于它需要 XXL(这是

个给 C 添加异常处理和资源管理支持

库)

因此您实际上要仅为了处理

串而引入

个重要

库

Safestr 是在开放源代码

BSD 风格

许可证下发布

std::

　　针对 C

用户

另

种解决方案是标准

std::

类

这是

种动态

思路方法(缓冲区根据需要而增长)

它几乎是不需要伤脑筋

语言直接支持该类

因此不需要做特殊

工作就可使用它

并且其他库也可能会使用它

就其本身而言

std::

通常会防止缓冲区溢出

但是如果通过它提取

个普通 C

串(比如使用 data

或 c_str

)

那么上面讨论

所有问题都会重新出现

还要记住 data

并不总是返回以 NUL 结尾

串

　　由于种种历史原因

许多 C

库和预先存在

都创建了它们自己

串类

这可能使得 std::

更难于使用

并且在使用那些库或修改那些

时效率很低

区别

串类型将不得不连续地来回转换

并非其他所有那些

串类都会防止缓冲区溢出

并且如果它们对 C 不受保护

char* 类型执行自动转换

那么缓冲区溢出缺陷很容易引入那些类中

　　工具

　　有许多工具可以在缓冲区溢出缺陷导致问题的前帮助检测它们

例如

像我

Flawfinder 和 Viega

RATS 这样

工具能够搜索源代码

识别出可能被不正确地使用

(基于它们

参数来归类)

这些工具

个缺点在于

它们不是完美

―― 它们会遗漏

些缓冲区溢出缺陷

并且它们会识别出

些实际上不是问题

“问题”

但是使用它们仍然是值得

和手工查找相比

它们将帮助您在短得多

时间内识别出代码中

潜在问题

　　结束语

　　借助知识、谨慎和工具

C 和 C

中

缓冲区溢出缺陷是可以防止

不过做起来并没有那么容易

特别是在 C 中

如果使用 C 和 C

来编写安全

您需要真正理解缓冲区溢出和如何防止它们

种替代思路方法是使用另

种编程语言

如今

几乎其他所有语言都能防止缓冲区溢出

但是使用另

种语言并不会消除所有问题

许多语言依赖 C 库

并且许多语言还具有关闭该保护特性

机制(为速度而牺牲安全性)

但是即便如此

不管您使用哪种语言

开发人员都可能会犯其他许多

从而带来引入缺陷

　　不管您做什么

开发没有

都是极其困难

即使最仔细

复查通常也会遗漏其中

些

开发安全

最重要思路方法的

是最小化特权

那意味着

各个部分应该具有它们需要

唯

特权

点也不能多

这样

即使

具有缺陷(谁能无过？)

也可能会避免将该缺陷转化为安全事故

但是在实战中如何做到这点呢？下

篇文章将研究如何实际地最小化 Linux/UNIX 系统中

特权

以便您能防止自己不可避免

所带来安全隐患

Tags: 缓冲区溢出保护缓冲区溢出漏洞缓冲区溢出教程缓冲区溢出

缓冲区溢出:安全编程: 防止缓冲区溢出

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注