Rss订阅

首页 »Java教程 » hadoop:Hadoop的基本结构介绍 »正文

hadoop:Hadoop的基本结构介绍

来源: 发布时间:星期四, 2009年2月12日浏览:205次评论:0

概述:

这是我看了Hadoop core 0.17.0文档只有做

些整理总结

有不对

地方请给我指出

什么是Hadoop?

Hadoop是

个用于运行应用

在大型集群

廉价硬件设备上

框架

Hadoop为应用

透明

提供了

组稳定/可靠

接口和数据运动

在Hadoop中实现了Google

MapReduce算法

它能够把应用

分割成许多很小

工作单元

每个单元可以在任何集群节点上执行或重复执行

此外

Hadoop还提供

个分布式文件系统用来在各个计算节点上存储数据

并提供了对数据读写

高吞吐率

由于应用了map/reduce和分布式文件系统使得Hadoop框架具有高容错性

它会自动处理失败节点

Hadoop

项目组成

Hadoop core 主要

子项目

提供分布是文件系统(HDFS)和支持MapReduce计算

HBase 建立在Hadoop Core 基础上

分布是数据库

我只研究Hadoop core

功能和实现

不涉及HBase

MapReduce介绍

这是Hadoop

核心

思想

就是做

个计算

如果计算过程中如果数据传输消耗

资源大于计算消耗

资源

考虑在计算过程中

将算法(

)

移动到数据存放

服务器中

再进行计算

思想 2

在做

个巨型计算时

利用多台(例如2000)台服务器

cpu和内存同时计算

将计算要用

数据切分

放在各个服务器上

然后将计算

分发到各个服务器

计算出各个部分

结果

最后将各个计算结果合并

另外

种描述为

MapReduce

名字源于这个模型中

两项核心操作:Map和 Reduce

也许熟悉Functional Programming(

式编程)

人见到这两个词会倍感亲切

简单

说来

Map是把

组数据

对

映射为另外

组数据

其映射

规则由

个

来指定

比如对[1, 2, 3, 4]进行乘2

映射就变成了[2, 4, 6, 8]

Reduce是对

组数据进行归约

这个归约

规则由

个

指定

比如对[1, 2, 3, 4]进行求和

归约得到结果是10

而对它进行求积

归约结果是24

我觉得意思是差不多

总

来说算法必须可以切分

包含小列步骤

切分、分别计算、合并

最典型

是大规模日志计算

Hadoop文件系统(HDFS)

MapReduce算法需要切分数据

HDFS设计为将大文件分别部署到各个服务器

主要有下列特性:

1．冗余存储

默认任何文件保留3个备份(考虑到部署在区别机架

情况)

保证了服务器失效时

不丢失数据

即使

个机架全部断电

或者烧毁

数据依然健壮存在

2．大文件分块分散在各个服务器上存储

专注于互联网--专注于架构

首页 »Java教程 » hadoop:Hadoop的基本结构介绍 »正文

hadoop:Hadoop的基本结构介绍

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章