Rss订阅

首页 »Python » python:如何编写Unix管道风格的Python代码 »正文

python:如何编写Unix管道风格的Python代码

来源: 发布时间:星期二, 2009年2月3日浏览:25次评论:0

　　看过 SICP 就知道

其实

式编程中

map, filter 都可以看作是管道思想

应用

但其实管道

思想不仅可以在

式语言中使用

只要语言支持定义

有能够存放

组数据

数据结构

就可以使用管道

思想

个日志处理任务

　　应用场景如下:

　　◆ 某个目录及子目录下有

些 web 服务器

日志文件

日志文件名以 access-log 开头

　　◆ 日志格式如下

81.107.39.38 - ... "GET /ply/ply.html HTTP/1.1" 200 97238
81.107.39.38 - ... "GET /ply HTTP/1.1" 304 -

　　其中最后

列数字为发送

字节数

若为 ‘-’ 则表示没有发送数据

　　◆目标是算出总共发送了多少字节

数据

实际上也就是要把日志记录

没

行

最后

列数值加起来

　　我不直接展示如何用 Unix 管道

风格来处理这个问题

而是先给出

些“不那么好”

代码

指出它们

问题

最后再展示管道风格

代码

并介绍如何使用 generator 来避免效率上

问题

　　问题并不复杂

几个 for 循环就能搞定:

sum = 0
for path, dirlist, filelist in os.walk(top):
　　for name in fnmatch.filter(filelist, "access-log*"):
　　　　# 对子目录中每个日志文件进行处理
　　　　with open(name) as f:
　　　　　　for line in f:
　　　　　　　　 line[-1]  '-':
　　　　　　　　　　continue
　　　　　　　　:
　　　　　　　　　　sum  (line.rsplit(None, 1)[1])

　　利用 os.walk 这个问题解决起来很方便

由此也可以看出 python

for 语句做遍历是多么

方便

不需要额外控制循环次数

变量

省去了设置

值、更新、判断循环结束条件等工作

相比 C/C

/Java 这样

语言真是太方便了

看起来

切都很美好

　　然而

设想以后有了新

统计任务

比如:

　　1.统计某个特定页面

访问次数

　　2.处理另外

些日志文件

日志文件名字以 error-log 开头

　　完成这些任务直接拿上面

代码过来改改就可以了

文件名

pattern 改

下

处理每个文件

代码改

下

其实每次任务

处理中

找到特定名字为特定 pattern

文件

代码是

样

直接修改的前

代码其实就引入了重复

　　如果重复

代码量很大

我们很自然

会注意到

然而 python

for 循环实在太方便了

像这里找文件

代码

共就两行

哪怕重写

遍也不会觉得太麻烦

for 循环

方便使得我们会忽略这样简单代码

重复

然而

再如何方便好用

for 循环无法重用

只有把它放到

中才能进行重用

　　(先考虑下是你会如何避免这里

代码

重复

下面马上出现

代码并不好

是“误导性”

代码

我会在的后再给出“更好”

代码

)

　　因此

我们把上面代码中不变

部分提取成

个通用

可变

部分以参数

形式传入

得到下面

代码:

def generic_process(topdir, filepat, processfunc):
　　for path, dirlist, filelist in os.walk(top):
　　　　for name in fnmatch.filter(filelist, filepat):
　　　　　　with open(name) f:
　　　　　　　　processfunc(f)
sum = 0
# 很遗憾python 对 closure 中变量不能进行赋值操作
# 因此这里只能使用全局变量
def add_count(f):
　　global sum
　　for line in f:
　　　　 line[-1]  '-':
　　　　　　continue
　　　　:
　　　　　　sum  (line.rsplit(None, 1)[1])
generic_process('logdir', 'access-log*', add_count)

　　看起来不变和可变

部分分开了

然而 generic_process

设计并不好

它除了寻找文件以外还

了日志文件处理

因此在其他任务中很可能就无法使用

另外 add_count

参数必须是 file like object

因此测试时不能简单

直接使用

串

　　管道风格

　　下面考虑用 Unix

工具和管道我们会如何完成这个任务:

find logdir -name "access-log*" |
xargs cat |
grep '[^-]$' |
awk '{ total  $NF } END { pr total }'

　　find 根据文件名 pattern 找到文件

cat 把所有文件内容合并输出到 stdout

grep 从 stdin 读入

过滤掉行末为 ‘-’

行

awk 提取每行最后

列

将数值相加

最后打印出结果

(省掉 cat 是可以

但这样

来 grep 就需要直接读文件而不是只从标准输入读

)

　　我们可以在 python 代码中模拟这些工具

Unix

工具通过文本来传递结果

在 python 中可以使用 list

def find(topdir, filepat, processfunc):
　　files = 
　　for path, dirlist, filelist in os.walk(top):
　　　　for name in fnmatch.filter(filelist, filepat):
　　　　　　files.append(name)
　　 files
def cat(files):
　　lines = 
　　for file in files:
　　　　with open(file) as f:
　　　　　　for line in f:
　　　　　　　　lines.append(line)
　　 lines
def grep(pattern, lines):
　　result = 
　　import re
　　pat = re.compile(pattern)
　　for line in lines:
　　　　 pat.search(line):
　　　　　　result.append(line)
　　resurn result
lines = grep('[^-]$', cat(find('logdir', 'access-log*')))
col = (line.rsplit(None, 1)[1] for line in lines)
pr sum((c) for c in col)

　　有了 find, cat, grep 这 3个

只需要连续

就可以像 Unix

管道

样将这些

组合起来

数据在管道中

变化如下图(简洁起见

过滤器直接标在箭头上 ):

　　看起来现在

代码行数比最初直接用 for 循环

代码要多

但现在

代码就像 Unix

那些小工具

样

每

个都更加可能被用到

我们可以把更多常用

Unix 工具用 Python 来模拟

从而在 Python 代码中以 Unix 管道

风格来编写代码

专注于互联网--专注于架构

首页 »Python » python:如何编写Unix管道风格的Python代码 »正文

python:如何编写Unix管道风格的Python代码

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章