hadoop:分布式计算开源框架Hadoop入门实战(一) 疯狂代码！

　　在SIP项目设计

过程中

对于它庞大

日志在开始时就考虑使用任务分解

多线程处理模式来分析统计

在我从前写

文章

Tiger Concurrent Practice --日志分析并行分解设计和实现

中有所提到

但是由于统计

内容暂时还是十分简单

所以就采用Memcache作为计数器

结合MySQL就完成了访问控制以及统计

工作

然而未来

对于海量日志分析

工作

还是需要有所准备

现在最火

技术词汇莫过于“云计算”

在Open API日益盛行

今天

互联网应用

数据将会越来越有价值

如何去分析这些数据

挖掘其内在价值

就需要分布式计算来支撑海量数据

分析工作

　　回过头来看

早先那种多线程

多任务分解

日志分析设计

其实是分布式计算

个单机版缩略

如何将这种单机

工作进行分拆

变成协同工作

集群

其实就是分布式计算框架设计所涉及

在去年参加BEA大会

时候

BEA和VMWare合作采用虚拟机来构建集群

无非就是希望使得计算机硬件能够类似于应用

中资源池

资源

使用者无需关心资源

分配情况

从而最大化了硬件资源

使用价值

分布式计算也是如此

具体

计算任务交由哪

台机器执行

执行后由谁来汇总

这都由分布式框架

Master来抉择

而使用者只需简单地将待分析内容提供给分布式计算系统作为输入

就可以得到分布式计算后

结果

　　Hadoop是Apache开源组织

个分布式计算开源框架

在很多大型网站WebSite上都已经得到了应用

如亚马逊、Facebook和Yahoo等等

对于我来说

相关内容

都是

个新手

学习过程

难免会有

些

只是希望记录下来可以分享给更多志同道合

朋友

　　什么是Hadoop？　　搞什么东西的前

第

步是要知道What(是什么)

然后是Why(为什么)

最后才是How(如何做)

但很多开发

朋友在做了多年项目以后

都习惯是先How

然后What

最后才是Why

这样只会让自己变得浮躁

同时往往会将技术误用于不适合

场景

　　Hadoop框架中最核心

设计就是:MapReduce和HDFS

MapReduce

思想是由Google

篇论文所提及而被广为流传

简单

句话解释MapReduce就是“任务

分解和结果

汇总”

HDFS是Hadoop分布式文件系统(Hadoop Distributed File

)

缩写

为分布式计算存储提供了底层支持

　　MapReduce从它名字上来看就大致可以看出个缘由

两个动词Map和Reduce

“Map(展开)”就是将

个任务分解成为多个任务

“Reduce”就是将分解后多任务处理

结果汇总起来

得出最后

分析结果

这不是什么新思想

其实在前面提到

多线程

多任务

设计就可以找到这种思想

影子

不论是现实社会

还是在

设计中

项工作往往可以被拆分成为多个任务

任务的间

关系可以分为两种:

种是不相关

任务

可以并行执行；另

种是任务的间有相互

依赖

先后顺序不能够颠倒

这类任务是无法并行处理

回到大学时期

教授上课时让大家去分析关键路径

无非就是找最省时

任务分解执行方式

在分布式系统中

机器集群就可以看作硬件资源池

将并行

任务拆分

然后交由每

个空闲机器资源去处理

能够极大地提高计算效率

同时这种资源无关性

对于计算集群

扩展无疑提供了最好

设计保证

(其实我

直认为Hadoop

卡通图标不应该是

个小象

应该是蚂蚁

分布式计算就好比蚂蚁吃大象

廉价

机器群可以匹敌任何高性能

计算机

纵向扩展

曲线始终敌不过横向扩展

斜线)

任务分解处理以后

那就需要将处理以后

结果再汇总起来

这就是Reduce要做

工作

　　图3:Hadoop结构示意图

　　在Hadoop

系统中

会有

台Master

主要负责NameNode

工作以及JobTracker

工作

JobTracker

主要职责就是启动、跟踪和调度各个Slave

任务执行

还会有多台Slave

每

台Slave通常具有DataNode

功能并负责TaskTracker

工作

TaskTracker根据应用要求来结合本地数据执行Map任务以及Reduce任务

　　说到这里

就要提到分布式计算最重要

个设计点:Moving Computation is Cheaper than Moving Data

就是在分布式处理中

移动数据

代价总是高于转移计算

代价

简单来说就是分而治的

工作

需要将数据也分而存储

本地任务处理本地数据然后归总

这样才会保证分布式计算

高效性

　　为什么要选择Hadoop？　　说完了What

简单地说

下Why

官方网站WebSite已经给了很多

介绍说明

这里就大致说

下其优点及使用

场景(没有不好

工具

只用不适用

工具

因此选择好场景才能够真正发挥分布式计算

作用):

　　可扩展:不论是存储

可扩展还是计算

可扩展都是Hadoop

设计根本

　　经济:框架可以运行在任何普通

PC上

　　可靠:分布式文件系统

备份恢复机制以及MapReduce

任务监控保证了分布式处理

可靠性

　　高效:分布式文件系统

高效数据交互实现以及MapReduce结合Local Data处理

模式

为高效处理海量

信息作了基础准备

　　使用场景:个人觉得最适合

就是海量数据

分析

其实Google最早提出MapReduce也就是为了海量数据分析

同时HDFS最早是为了搜索引擎实现而开发

后来才被用于分布式计算框架中

海量数据被分割于多个节点

然后由每

个节点并行计算

将得出

结果归并到输出

同时第

阶段

输出又可以作为下

阶段计算

输入

因此可以想象到

个树状结构

分布式计算图

在区别阶段都有区别产出

同时并行和串行结合

计算也可以很好地在分布式集群

资源下得以高效

处理

　　作者介绍:岑文初

就职于阿里软件Software公司研发中心平台

部

任架构师

当前主要工作涉及阿里软件Software开发平台服务框架(ASF)设计和实现

服务集成平台(SIP)设计和实现

没有什么擅长或者精通

工作到现在唯

提升

就是学习能力和速度

个人Blog为:http://blog.csdn.net/cenwenchu79

hadoop:分布式计算开源框架Hadoop入门实战(一)

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注