互联网服务Hadoop应用场景

hadoop在实际应用最常见的问题有哪些?

hadoop在实际应用最常见的问题有哪些?显示全部

hadoop在实际应用最常见的问题有哪些?

收起
参与8

查看其它 1 个回答美国队长的回答

美国队长美国队长研发工程师Alibaba

1.注意事项

从安装开始考虑你的集群分布,需要处理的数据量,去决定你安装hadoop的时候配置项的设置,另外hadoop读取数据的时候一般先访问本机柜的上的节点中数据再访问别的机柜,所以集群机器的部署还是要考究的

2.原理分析

这个问题比较笼统而且hadoop的原理不是一句两句能说得清的,可以私下聊、具体可以从客户端如何跟namenode取得链接,通过什么样的数据格式进行传输,namenode跟datanode之间通过rpc进行互访通过packet的数据格式进行传输,datanode节点之间既作为客户端又作为服务端,既要保证数据传输出去又要保证数据能够准确写入目标节点(checksum验证机制)等等

3.实例参考

a.数据量大要求速度不是很快进行数据清洗的时候考虑使用MR编程

b.如果想使用sql就解决问题可以考虑使用hive,但是要注意对hivesql的优化比如大表关联小表,小表关联小表等等

据我使用hadoop的经验是最优使用hadoop都是在实战中逐渐调整出来的,比如设置mr过程中m端内存设置多少,并发数设置多大,中间的partition过程采用哪种,reduce内存多少等等并没有唯一的答案,具体场景具体分析

互联网服务 · 2015-10-14
浏览1163

回答者

美国队长
研发工程师Alibaba
擅长领域: 大数据大数据平台数据库

美国队长 最近回答过的问题

回答状态

  • 发布时间:2015-10-14
  • 关注会员:5 人
  • 回答浏览:1163
  • X社区推广