Rss订阅

首页 »编程综合 » hadoop:使用 Linux 和 Hadoop 进行分布式计算 »正文

hadoop:使用 Linux 和 Hadoop 进行分布式计算

来源: 发布时间:星期二, 2009年2月3日浏览:20次评论:0

　　Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene

子项目 Nutch

部分正式引入

它受到最先由 Google Lab 开发

MapReduce 和 Google File

启发

2006 年 3 月份

MapReduce 和 Nutch Distributed File

(NDFS) 分别被纳入称为 Hadoop

项目中

　　Hadoop 是最受欢迎

在 Internet 上对搜索关键字进行内容分类

工具

但它也可以解决许多要求极大伸缩性

问题

例如

如果您要 grep

个 10TB

巨型文件

会出现什么情况？在传统

系统上

这将需要很长

时间

但是 Hadoop 在设计时就考虑到这些问题

因此能大大提高效率

　　先决条件

　　Hadoop 是

个能够对大量数据进行分布式处理

软件Software框架

但是 Hadoop 是以

种可靠、高效、可伸缩

方式进行处理

Hadoop 是可靠

它假设计算元素和存储会失败

因此它维护多个工作数据副本

确保能够针对失败

节点重新分布处理

Hadoop 是高效

它以并行

方式工作

通过并行处理加快处理速度

Hadoop 还是可伸缩

能够处理 PB 级数据

此外

Hadoop 依赖于社区服务器

因此它

成本比较低

任何人都可以使用

　　您可能已经想到

Hadoop 运行在 Linux 生产平台上是非常理想

它带有用 Java™ 语言编写

框架

Hadoop 上

应用

也可以使用其他语言编写

比如 C

　　Hadoop 架构

　　Hadoop 有许多元素构成

最底部是 Hadoop Distributed File

(HDFS)

它存储 Hadoop 集群中所有存储节点上

文件

HDFS(对于本文)

上

层是 MapReduce 引擎

该引擎由 JobTrackers 和 TaskTrackers 组成

　　HDFS

　　对外部客户机而言

HDFS 就像

个传统

分级文件系统

可以创建、删除、移动或重命名文件

等等

但是 HDFS

架构是基于

组特定

节点构建

(参见图 1)

这是由它自身

特点决定

这些节点包括 NameNode(仅

个)

它在 HDFS 内部提供元数据服务；DataNode

它为 HDFS 提供存储块

由于仅存在

个 NameNode

因此这是 HDFS

个缺点(单点失败)

　　图 1. Hadoop 集群

简化视图

　　存储在 HDFS 中

文件被分成块

然后将这些块复制到多个计算机中(DataNode)

这和传统

RAID 架构大不相同

块

大小(通常为 64MB)和复制

块数量在创建文件时由客户机决定

NameNode 可以控制所有文件操作

HDFS 内部

所有通信都基于标准

TCP/IP 协议

　　NameNode

　　NameNode 是

个通常在 HDFS 例子中

单独机器上运行

软件Software

它负责管理文件系统名称空间和控制外部客户机

访问

NameNode 决定是否将文件映射到 DataNode 上

复制块上

对于最常见

3 个复制块

第

个复制块存储在同

机架

区别节点上

最后

个复制块存储在区别机架

某个节点上

注意

这里需要您了解集群架构

　　实际

I/O 事务并没有经过 NameNode

只有表示 DataNode 和块

文件映射

元数据经过 NameNode

当外部客户机发送请求要求创建文件时

NameNode 会以块标识和该块

第

个副本

DataNode IP 地址作为响应

这个 NameNode 还会通知其他将要接收该块

副本

DataNode

　　NameNode 在

个称为 FsImage

文件中存储所有有关文件系统名称空间

信息

这个文件和

个包含所有事务

记录文件(这里是 EditLog)将存储在 NameNode

本地文件系统上

FsImage 和 EditLog 文件也需要复制副本

以防文件损坏或 NameNode 系统丢失

　　DataNode

　　NameNode 也是

个通常在 HDFS 例子中

单独机器上运行

软件Software

Hadoop 集群包含

个 NameNode 和大量 DataNode

DataNode 通常以机架

形式组织

机架通过

个交换机将所有系统连接起来

Hadoop

个假设是:机架内部节点的间

传输速度快于机架间节点

传输速度

　　DataNode 响应来自 HDFS 客户机

读写请求

它们还响应创建、删除和复制来自 NameNode

块

命令

NameNode 依赖来自每个 DataNode

定期心跳(heartbeat)消息

每条消息都包含

个块报告

NameNode 可以根据这个报告验证块映射和其他文件系统元数据

如果 DataNode 不能发送心跳消息

NameNode 将采取修复措施

重新复制在该节点上丢失

块

　　文件操作

　　可见

HDFS 并不是

个万能

文件系统

它

主要目

是支持以流

形式访问写入

大型文件

如果客户机想将文件写到 HDFS 上

首先需要将该文件缓存Cache到本地

临时存储

如果缓存Cache

数据大于所需

HDFS 块大小

创建文件

请求将发送给 NameNode

NameNode 将以 DataNode 标识和目标块响应客户机

同时也通知将要保存文件块副本

DataNode

当客户机开始将临时文件发送给第

个 DataNode 时

将立即通过管道方式将块内容转发给副本 DataNode

客户机也负责创建保存在相同 HDFS 名称空间中

校验和(checksum)文件

在最后

文件块发送的后

NameNode 将文件创建提交到它

持久化元数据存储(在 EditLog 和 FsImage 文件)

　　Linux 集群

　　Hadoop 框架可在单

Linux 平台上使用(开发和调试时)

但是使用存放在机架上

商业服务器才能发挥它

力量

这些机架组成

个 Hadoop 集群

它通过集群拓扑知识决定如何在整个集群中分配作业和文件

Hadoop 假定节点可能失败

因此采用本机思路方法处理单个计算机甚至所有机架

失败

　　Hadoop 应用

　　Hadoop

最常见使用方法的

是 Web 搜索

虽然它不是惟

软件Software框架应用

但作为

个并行数据处理引擎

它

表现非常突出

Hadoop 最有趣

方面的

是 Map and Reduce 流程

它受到 Google 开发

启发

这个流程称为创建索引

它将 Web 爬行器检索到

文本 Web 页面作为输入

并且将这些页面上

单词

频率报告作为结果

然后可以在整个 Web 搜索过程中使用这个结果从已定义

搜索参数中识别内容

　　MapReduce

　　最简单

MapReduce 应用

至少包含 3 个部分:

个 Map

、

个 Reduce

和

个

将作业控制和文件输入/输出结合起来

在这点上

Hadoop 提供了大量

接口和抽象类

从而为 Hadoop 应用

开发人员提供许多工具

可用于调试和性能度量等

　　MapReduce 本身就是用于并行处理大数据集

软件Software框架

MapReduce

根源是

性编程中

map 和 reduce

它由两个可能包含有许多例子(许多 Map 和 Reduce)

操作组成

Map

接受

组数据并将其转换为

个键/值对列表

输入域中

每个元素对应

个键/值对

Reduce

接受 Map

生成

列表

然后根据它们

键(为每个键生成

个键/值对)缩小键/值对列表

　　这里提供

个举例

帮助您理解它

假设输入域是 _disibledevent=>

　　现在回到 Hadoop 上

它是如何实现这个功能

？

个代表客户机在单个主系统上启动

MapReduce 应用

称为 JobTracker

类似于 NameNode

它是 Hadoop 集群中惟

负责控制 MapReduce 应用

系统

在应用

提交的后

将提供包含在 HDFS 中

输入和输出目录

JobTracker 使用文件块信息(物理量和位置)确定如何创建其他 TaskTracker 从属任务

MapReduce 应用

被复制到每个出现输入文件块

节点

将为特定节点上

每个文件块创建

个惟

从属任务

每个 TaskTracker 将状态和完成信息报告给 JobTracker

图 3 显示

个举例集群中

工作分布

　　图 3. 显示处理和存储

物理分布

Hadoop 集群

　　Hadoop

这个特点非常重要

它并没有将存储移动到某个位置以供处理

而是将处理移动到存储

这通过根据集群中

节点数调节处理

因此支持高效

数据处理

　　Hadoop

其他应用

　　Hadoop 是

个用于开发分布式应用

多功能框架；从区别

角度看待问题是充分利用 Hadoop

好思路方法

回顾

下图 2

那个流程以阶梯

形式出现

其中

个组件使用另

个组件

结果

当然

它不是万能

开发工具

但如果碰到

问题属于这种情况

那么可以选择使用 Hadoop

　　Hadoop

直帮助解决各种问题

包括超大型数据集

排序和大文件

搜索

它还是各种搜索引擎

核心

比如 Amazon

A9 和用于查找酒信息

Able Grape 垂直搜索引擎

Hadoop Wiki 提供了

个包含大量应用

和公司

列表

这些应用

和公司通过各种方式使用 Hadoop(参见参考资料)

　　当前

Yahoo! 拥有最大

Hadoop Linux 生产架构

共由 10,000 多个内核组成

有超过 5PB 字节

储存分布到各个 DataNode

在它们

Web 索引内部差不多有

万亿个链接

不过您可能不需要那么大型

系统

如果是这样

话

您可以使用 Amazon Elastic Compute Cloud (EC2) 构建

个包含 20 个节点

虚拟集群

事实上

纽约时报使用 Hadoop 和 EC2 在 36 个小时内将 4TB

TIFF 图像 — 包括 405K 大 TIFF 图像

3.3M SGML 文章和 405K XML 文件 — 转换为 800K 适合在 Web 上使用

PNG 图像

这种处理称为云计算

它是

种展示 Hadoop

威力

独特方式

　　结束语

　　毫无疑问

Hadoop 正在变得越来越强大

从使用它

应用

看

它

前途是光明

您可以从参考资料小节更多地了解 Hadoop 及其应用

包括设置您自己

Hadoop 集群

建议

专注于互联网--专注于架构

首页 »编程综合 » hadoop:使用 Linux 和 Hadoop 进行分布式计算 »正文

hadoop:使用 Linux 和 Hadoop 进行分布式计算

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章