活动简介
随着DT时代的到来,传统企业、互联网公司产生的数据量越来越大,每天会产生上百G数据量。企业也开始使用hadoop来处理和存储如此庞大的数据。然而搭建集群很简单,但是如何让“大象”能快速的跑起来,如何让集群的资源利用率达到80%以上,则是一个技术积累的过程,也是hadoop中最高深的部分。本次将结合企业自身的业务场景和存在问题来解答如何去优化和配置集群。
活动日程
本场提问时间:8月17日-8月21日
集中交流时间:8月21日14:00-16:00
提问规则
场景描述(务必尽量详细,越详细给出的答案越明确)
说明:描述中需要包含以下信息:
1、当前集群的规模,
2、机器的配置
3、机器部署情况(hadoop、hbase等如何部署)
4、用集群来处理什么问题,处理结果输出到什么地方
存在问题(描述集群在处理任务的情况)
说明:描述中需要包含以下信息:
1、处理的数据量多大(每天多少G或者累计多少G)
2、任务量是多少(假如使用MapReduce,则需要说明产生多少个Task多少个Reduce,假如使用HBase需要提供如何去插入或者查询数据)
3、问题描述(系统出现的问题是什么,尽可能描述问题现象)
主题资料
【案例】Hadoop深入交流之集群优化
业主平台要是一款具备千万级用户的IM系统,系统输出IM消息推送能力服务,提供在线以及历史消息查询、用户活跃度分析等。利用hadoop搭建集群环境,使用HBase提供离线消息存储和历史记录存储的查询。使用MapReduce来提供统计分析。