专注于互联网--专注于架构

最新标签
网站地图
文章索引
Rss订阅

首页 »Java教程 » hadoop:分布式计算开源框架Hadoop入门实战( 3) »正文

hadoop:分布式计算开源框架Hadoop入门实战( 3)

来源: 发布时间:星期四, 2009年1月8日 浏览:24次 评论:0
  Hadoop基本流程 ProgramDriver;
  try {
   pgd.addClass("analysislog", LogAnalysiser., "A map/reduce program that analysis log .");
   pgd.driver(argv);
  }
  catch(Throwable e){
   e.prStackTrace;
  }
 }
}  将代码打成jar并且设置jarClass为ExampleDriver这个类在分布式环境启动以后执行如下语句:

hadoop jar analysiser.jar analysislog /home/wenchu/test-in /home/wenchu/test-out  在/home/wenchu/test-in中是需要分析日志文件执行后就会看见整个执行过程包括了Map和Reduce进度执行完毕会在/home/wenchu/test-out下看到输出内容有两个文件:part-00000和part-00001分别记录了统计后结果 如果需要看执行具体情况可以看在输出目录下_logs/history/xxxx_analysisjob里面罗列了所有MapReduce创建情况以及执行情况在运行期也可以通过浏览器来查看Map,Reduce情况:http://MasterIP:50030/jobtracker.jsp

  Hadoop集群测试  首先这里使用上面范例作为测试也没有做太多优化配置这个测试结果只是为了看看集群效果以及些参数配置影响

  文件复制数为1blocksize 5M

Slave数 处理记录数(万条) 执行时间(秒)
2 95 38
2 950 337
4 95 24
4 950 178
6 95 21
6 950 114

  Blocksize 5M

Slave数 处理记录数(万条) 执行时间(秒)
2(文件复制数为1) 950 337
2(文件复制数为3) 950 339
6(文件复制数为1) 950 114
6(文件复制数为3) 950 117

  文件复制数为1

Slave数 处理记录数(万条) 执行时间(秒)
6(blocksize 5M) 95 21
6(blocksize 77M) 95 26
4(blocksize 5M) 950 178
4(blocksize 50M) 950 54
6(blocksize 5M) 950 114
6(blocksize 50M) 950 44
6(blocksize 77M) 950 74

  测试数据结果很稳定基本测几次同样条件下都是通过测试结果可以看出以下几点:

  机器数对于性能还是有帮助(等于没说^_^)

  文件复制数增加只对安全性有帮助但是对于性能没有太多帮助而且现在采取是将操作系统文件拷贝到HDFS中所以备份多了准备时间很长

  blocksize对于性能影响很大首先如果将block划分太小那么将会增加job数量同时也增加了协作代价降低了性能但是配置太大也会让job不能最大化并行处理所以这个值配置需要根据数据处理量来考虑

  最后就是除了这个表里面列出来结果应该去仔细看输出目录中_logs/history中xxx_analysisjob这个文件里面记录了全部执行过程以及读写情况这个可以更加清楚地了解哪里可能会更加耗时

  随想  “云计算”热烫手就和SAAS、Web2及SNS等往往都是在搞概念只有真正踏踏实实大型互联网公司才会投入人力物力去研究符合自己分布式计算其实当你数据量没有那么大时候这种分布式计算也就仅仅只是个玩具而已只有在真正解决问题过程中它深层次问题才会被挖掘出来

  这 3篇文章(分布式计算开源框架Hadoop介绍Hadoop中集群配置和使用窍门技巧)仅仅是为了给对分布式计算有兴趣朋友抛个砖要想真掘到金子那么就踏踏实实去用、去想、去分析或者自己也会更进步地去研究框架中实现机制在解决自己问题同时也能够贡献些什么

  前几日看到有人跪求成为架构师方式看了有些可悲有些可笑其实有多少架构师知道什么叫做架构?架构师职责是什么?和其追求这么个名号还不如踏踏实实地做块石头沉到水底要知道积累和沉淀过程就是种成长

  作者介绍:岑文初就职于阿里软件Software公司研发中心平台任架构师当前主要工作涉及阿里软件Software开发平台服务框架(ASF)设计和实现服务集成平台(SIP)设计和实现没有什么擅长或者精通工作到现在唯提升就是学习能力和速度个人Blog为:http://blog.csdn.net/cenwenchu79

0

相关文章

读者评论

发表评论

  • 昵称:
  • 内容: