活动简介
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,他从0.x版本到现在的3.0版本,经历了各种变化。但是变化中有不变的是他的主要功能就是Hdfs(分布式文件存储) ,Mapreduce(分布式并行计算框架)。其中,Hdfs主要是用来进行文件的存储,他涉及文件存储不同压缩方式,文件存储在各个节点是否均衡等;Mapreduce是用来并行计算数据,他通过简单的Mapper,combine,parttion,reducer的过程对批量的数据进行了格式化,排序等处理,他涉及mapper个数,重写combine,partition,reducer的个数等,为了弄清这些参数值的原理。
我们要对Hadoop有个初步的认识,才能为我们进一步研究别的大数据框架做好准备。当然我们在Hadoop的学习中,可能碰到各种各样的问题,比如Mapreduce如何写?Mapreduce编程中涉及的一些优化?利用hdfs分布式存储系统进行存储文件的时候要注意什么等等。
在本次主题为在线技术交流中,将重点解决如下问题:
1、应该如何学习Hadoop?学习路径应该如何规划?
2、在学习Hadoop的过程中,有哪些可利用的资源?
3、在Hadoop使用中,应该如何诊断和分析故障?
4、遇到的具体Hadoop问题探讨