Rss订阅

首页 »Java教程 » hadoop:用 Hadoop 进行分布式并行编程第 1 部分 »正文

hadoop:用 Hadoop 进行分布式并行编程第 1 部分

来源: 发布时间:星期四, 2009年1月8日浏览:29次评论:0

　　Hadoop 是

个实现了 MapReduce 计算模型

开源分布式并行编程框架

借助于 Hadoop,

员可以轻松地编写分布式并行

将其运行于计算机集群上

完成海量数据

计算

本文将介绍 MapReduce 计算模型

分布式并行计算等基本概念

以及 Hadoop

安装部署和基本运行思路方法

　　Hadoop 介绍

　　Hadoop 是

个开源

可运行于大规模集群上

分布式并行编程框架

由于分布式存储对于分布式编程来说是必不可少

这个框架中还包含了

个分布式文件系统 HDFS( Hadoop Distributed File

)

也许到目前为止

Hadoop 还不是那么广为人知

其最新

版本号也仅仅是 0.16

距离 1.0 似乎都还有很长

段距离

但提及 Hadoop

脉相承

另外两个开源项目 Nutch 和 Lucene ( 3者

创始人都是 Doug Cutting ),那绝对是大名鼎鼎

Lucene 是

个用 Java 开发

开源高性能全文检索工具包

它不是

个完整

应用

而是

套简单易用

API

在全世界范围内

已有无数

软件Software系统

Web 网站WebSite基于 Lucene 实现了全文检索功能

后来 Doug Cutting 又开创了第

个开源

Web 搜索引擎(http://www.nutch.org) Nutch, 它在 Lucene

基础上增加了网络爬虫和

些和 Web 相关

功能

些解析各类文档格式

插件等

此外

Nutch 中还包含了

个分布式文件系统用于存储数据

从 Nutch 0.8.0 版本的后

Doug Cutting 把 Nutch 中

分布式文件系统以及实现 MapReduce 算法

代码独立出来形成了

个新

开源项 Hadoop

Nutch 也演化为基于 Lucene 全文检索以及 Hadoop 分布式计算平台

个开源搜索引擎

　　基于 Hadoop,你可以轻松地编写可处理海量数据

分布式并行

并将其运行于由成百上千个结点组成

大规模计算机集群上

从目前

情况来看

Hadoop 注定会有

个辉煌

未来:"云计算"是目前灸手可热

技术名词

全球各大 IT 公司都在投资和推广这种新

代

计算模式

而 Hadoop 又被其中几家主要

公司用作其"云计算"环境中

重要基础软件Software

如:雅虎正在借助 Hadoop 开源平台

力量对抗 Google, 除了资助 Hadoop 开发团队(Team)外

还在开发基于 Hadoop

开源项目 Pig, 这是

个专注于海量数据集分析

分布式计算

Amazon 公司基于 Hadoop 推出了 Amazon S3 ( Amazon Simple Storage Service )

提供可靠

快速

可扩展

网络存储服务

以及

个商用

云计算平台 Amazon EC2 ( Amazon Elastic Compute Cloud )

在 IBM 公司

云计算项目--"蓝云计划"中

Hadoop 也是其中重要

基础软件Software

Google 正在跟IBM合作

共同推广基于 Hadoop

云计算

　　迎接编程方式

变革

　　在摩尔定律

作用下

以前

员根本不用考虑计算机

性能会跟不上软件Software

发展

约每隔 18 个月

CPU

主频就会增加

倍

性能也将提升

倍

软件Software根本不用做任何改变

就可以享受免费

性能提升

然而

由于晶体管电路已经逐渐接近其物理上

性能极限

摩尔定律在 2005 年左右开始失效了

人类再也不能期待单个 CPU

速度每隔 18 个月就翻

倍

为我们提供越来越快

计算性能

Intel, AMD, IBM 等芯片厂商开始从多核这个角度来挖掘 CPU

性能潜力

多核时代以及互联网时代

到来

将使软件Software编程方式发生重大变革

基于多核

多线程并发编程以及基于大规模计算机集群

分布式并行编程是将来软件Software性能提升

主要途径

　　许多人认为这种编程方式

重大变化将带来

次软件Software

并发危机

我们传统

软件Software方式基本上是单指令单数据流

顺序执行

这种顺序执行十分符合人类

研究习惯

却和并发并行编程格格不入

基于集群

分布式并行编程能够让软件Software和数据同时运行在连成

个网络

许多台计算机上,这里

每

台计算机均可以是

台普通

PC 机

这样

分布式并行环境

最大优点是可以很容易

通过增加计算机来扩充新

计算结点

并由此获得不可思议

海量计算能力, 同时又具有相当强

容错能力

批计算结点失效也不会影响计算

正常进行以及结果

正确性

Google 就是这么做

他们使用了叫做 MapReduce

并行编程模型进行分布式并行编程

运行在叫做 GFS ( Google File

)

分布式文件系统上

为全球亿万用户提供搜索服务

　　Hadoop 实现了 Google

MapReduce 编程模型

提供了简单易用

编程接口

也提供了它自己

分布式文件系统 HDFS,和 Google 区别

是

Hadoop 是开源

任何人都可以使用这个框架来进行并行编程

如果说分布式并行编程

难度足以让普通

员望而生畏

话

开源

Hadoop

出现极大

降低了它

门槛

读完本文

你会发现基于 Hadoop 编程非常简单

无须任何并行开发经验

你也可以轻松

开发出分布式

并行

并让其令人难以置信地同时运行在数百台机器上

然后在短时间内完成海量数据

计算

你可能会觉得你不可能会拥有数百台机器来运行你

并行

而事实上

随着"云计算"

普及

任何人都可以轻松获得这样

海量计算能力

例如现在 Amazon 公司

云计算平台 Amazon EC2 已经提供了这种按需计算

租用服务

有兴趣

读者可以去了解

下

这篇系列文章

第 3部分将有所介绍

　　掌握

点分布式并行编程

知识对将来

员是必不可少

Hadoop 是如此

简便好用

何不尝试

下呢？也许你已经急不可耐

想试

下基于 Hadoop

编程是如何回事了

但毕竟这种编程模型和传统

顺序

大不相同

掌握

点基础知识才能更好地理解基于 Hadoop

分布式并行

是如何编写和运行

因此本文会先介绍

下 MapReduce

计算模型

Hadoop 中

分布式文件系统 HDFS, Hadoop 是如何实现并行计算

然后才介绍如何安装和部署 Hadoop 框架

以及如何运行 Hadoop

　　MapReduce 计算模型

　　MapReduce 是 Google 公司

核心计算模型

它将复杂

运行于大规模集群上

并行计算过程高度

抽象到了两个

Map 和 Reduce, 这是

个令人惊讶

简单却又威力巨大

模型

适合用 MapReduce 来处理

数据集(或任务)有

个基本要求: 待处理

数据集可以分解成许多小

数据集

而且每

个小数据集都可以完全并行地进行处理

　　图 1. MapReduce 计算流程

路径中 Program Files 中间有空格

定要用双引号将路径引起来)

　　至此

切就绪

可以运行 Hadoop 了

以下

运行过程

需要启动 cygwin, 进入模拟 Linux 环境

在下载

Hadoop Core 包中

带有几个举例

并且已经打包成了 hadoop-0.16.0-examples.jar

其中有

个 WordCount

功能是统计

批文本文件中各个单词出现

次数

我们先来看看如何运行这个

Hadoop 共有 3种运行模式: 单机(非分布式)模式

伪分布式运行模式

分布式运行模式

其中前两种运行模式体现不了 Hadoop 分布式计算

优势

并没有什么实际意义

但对

测试及调试很有帮助

我们先从这两种模式入手

了解基于 Hadoop

分布式并行

是如何编写和运行

　　单机(非分布式)模式

　　这种模式在

台单机上运行

没有分布式文件系统

而是直接读写本地操作系统

文件系统

　　代码清单1

$ cd /cygdrive/c/hadoop-0.16.0
$ mkdir test-in　
$ cd test-in
#在 test-in 目录下创建两个文本文件, WordCount 将统计其中各个单词出现次数
$ echo "hello world bye world" >file1.txt　
$ echo "hello hadoop goodbye hadoop" >file2.txt
$ cd ..
$ bin/hadoop jar hadoop-0.16.0-examples.jar wordcount test-in test-out
#执行完毕下面查看执行结果:
$ cd test-out
$ cat part-00000
bye　　 1
goodbye　1
hadoop　2
hello　　2
world　 2

　　注意事项:运行 bin/hadoop jar hadoop-0.16.0-examples.jar wordcount test-in test-out 时

务必注意第

个参数是 jar, 不是 -jar, 当你用 -jar 时

不会告诉你是参数错了

报告出来

信息是:Exception in thread "

" java.lang.NoClassDefFoundError: org/apache/hadoop/util/ProgramDriver, 笔者当时以为是

path

设置问题

浪费了不少时间

通过分析 bin/hadoop 脚本可知

-jar 并不是 bin/hadoop 脚本定义

参数

此脚本会把 -jar 作为 Java

参数

Java

-jar 参数表示执行

个 Jar 文件(这个 Jar 文件必须是

个可执行

Jar,即在 MANIFEST 中定义了主类), 此时外部定义

path 是不起作用

因而会抛出 java.lang.NoClassDefFoundError 异常

而 jar 是 bin/hadoop 脚本定义

参数

会

Hadoop 自己

个工具类 RunJar

这个工具类也能够执行

个 Jar 文件

并且外部定义

path 有效

　　伪分布式运行模式

　　这种模式也是在

台单机上运行

但用区别

Java 进程模仿分布式运行中

各类结点 ( NameNode, DataNode, JobTracker, TaskTracker, Secondary NameNode )

请注意分布式运行中

这几个结点

区别:

　　从分布式存储

角度来说

集群中

结点由

个 NameNode 和若干个 DataNode 组成, 另有

个 Secondary NameNode 作为 NameNode

备份

从分布式应用

角度来说

集群中

结点由

个 JobTracker 和若干个 TaskTracker 组成

JobTracker 负责任务

调度

TaskTracker 负责并行执行任务

TaskTracker 必须运行在 DataNode 上

这样便于数据

本地计算

JobTracker 和 NameNode 则无须在同

台机器上

　　(1) 按代码清单2修改 conf/hadoop-site.xml

注意 conf/hadoop-default.xml 中是 Hadoop 缺省

参数

你可以通过读此文件了解 Hadoop 中有哪些参数可供配置

但不要修改此文件

可通过修改 conf/hadoop-site.xml 改变缺省参数值

此文件中设置

参数值会覆盖 conf/hadoop-default.xml

同名参数

　　代码清单 2

<configuration>
　<property>
　　<name>fs.default.name</name>
　　<value>localhost:9000</value>
　</property>
　<property>
　　<name>mapred.job.tracker</name>
　　<value>localhost:9001</value>
　</property>
　<property>
　　<name>dfs.replication</name>
　　<value>1</value>
　</property>
</configuration>

　　参数 fs.default.name 指定 NameNode

IP 地址和端口号

缺省值是 file:///, 表示使用本地文件系统, 用于单机非分布式模式

此处我们指定使用运行于本机 localhost 上

NameNode

　　参数 mapred.job.tracker 指定 JobTracker

IP 地址和端口号

缺省值是 local, 表示在本地同

Java 进程内执行 JobTracker 和 TaskTracker, 用于单机非分布式模式

此处我们指定使用运行于本机 localhost 上

JobTracker ( 用

个单独

Java 进程做 JobTracker )

　　参数 dfs.replication 指定 HDFS 中每个 Block 被复制

次数

起数据冗余备份

作用

在典型

生产系统中

这个数常常设置为3

　　(2)配置 SSH,如代码清单3所示:

　　代码清单 3

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

　　配置完后

执行

下 ssh localhost, 确认你

机器可以用 SSH 连接

并且连接时不需要手工输入密码

　　(3)格式化

个新

分布式文件系统, 如代码清单4所示:

　　代码清单 4

$ cd /cygdrive/c/hadoop-0.16.0
$ bin/hadoop namenode –format

　　(4) 启动 hadoop 进程, 如代码清单5所示

控制台上

输出信息应该显示启动了 namenode, datanode, secondary namenode, jobtracker, tasktracker

启动完成的后

通过 ps –ef 应该可以看到启动了5个新

java 进程

　　代码清单 5

$ bin/start-all.sh　
$ ps –ef

　　(5) 运行 wordcount 应用, 如代码清单6所示:

　　代码清单 6

$ bin/hadoop dfs -put ./test-in input　
#将本地文件系统上 ./test-in 目录拷到 HDFS 根目录上目录名改为 input
#执行 bin/hadoop dfs –help 可以学习各种 HDFS 命令使用
$ bin/hadoop jar hadoop-0.16.0-examples.jar wordcount input output
#查看执行结果:
#将文件从 HDFS 拷到本地文件系统中再查看:
$ bin/hadoop dfs -get output output
$ cat output/*
#也可以直接查看
$ bin/hadoop dfs -cat output/*
$ bin/stop-all.sh #停止 hadoop 进程

　　故障诊断

　　(1) 执行 $ bin/start-all.sh 启动 Hadoop 进程后

会启动5个 java 进程, 同时会在 /tmp 目录下创建 5个 pid 文件记录这些进程 ID 号

通过这 5个文件

可以得知 namenode, datanode, secondary namenode, jobtracker, tasktracker 分别对应于哪

个 Java 进程

当你觉得 Hadoop 工作不正常时

可以首先查看这5个 java 进程是否在正常运行

　　(2) 使用 web 接口

访问 http://localhost:50030 可以查看 JobTracker

运行状态

访问 http://localhost:50060 可以查看 TaskTracker

运行状态

访问 http://localhost:50070 可以查看 NameNode 以及整个分布式文件系统

状态

浏览分布式文件系统中

文件以及 log 等

　　(3) 查看 ${HADOOP_HOME}/logs 目录下

log 文件

namenode, datanode, secondary namenode, jobtracker, tasktracker 各有

个对应

log 文件

每

次运行

计算任务也有对应用 log 文件

分析这些 log 文件有助于找到故障原因

　　结束语

　　现在

你已经了解了 MapReduce 计算模型

分布式文件系统 HDFS

分布式并行计算等

基本原理, 并且有了

个可以运行

Hadoop 环境

运行了

个基于 Hadoop

并行

在下

篇文章中

你将了解到如何针对

个具体

计算任务

基于 Hadoop 编写自己

分布式并行

并将其部署运行等内容

　　声明:本文仅代表作者个人的观点

不代表 IBM 公司的观点

　　有关作者

　　曹羽中

在北京航空航天大学获得计算机软件Software和理论专业

硕士学位

具有数年

unix 环境下

C 语言,Java,数据库以及电信计费软件Software

开发经验

他

技术兴趣还包括 OSGi 和搜索技术

他目前在IBM中国系统和科技实验室从事系统管理软件Software

开发工作,可以通过 [email protected]和他联系

专注于互联网--专注于架构

首页 »Java教程 » hadoop:用 Hadoop 进行分布式并行编程第 1 部分 »正文

hadoop:用 Hadoop 进行分布式并行编程第 1 部分

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章

专注于互联网--专注于架构

首页 »Java教程 » hadoop:用 Hadoop 进行分布式并行编程 第 1 部分 »正文

hadoop:用 Hadoop 进行分布式并行编程 第 1 部分

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章

首页 »Java教程 » hadoop:用 Hadoop 进行分布式并行编程第 1 部分 »正文

hadoop:用 Hadoop 进行分布式并行编程第 1 部分