互联网服务Hadoop应用场景

hadoop在实际应用最常见的问题有哪些?

hadoop在实际应用最常见的问题有哪些?

参与8

2同行回答

美国队长美国队长  研发工程师 , Alibaba
1.注意事项从安装开始考虑你的集群分布,需要处理的数据量,去决定你安装hadoop的时候配置项的设置,另外hadoop读取数据的时候一般先访问本机柜的上的节点中数据再访问别的机柜,所以集群机器的部署还是要考究的2.原理分析这个问题比较笼统而且hadoop的原理不是一句两句能说得清...显示全部

1.注意事项

从安装开始考虑你的集群分布,需要处理的数据量,去决定你安装hadoop的时候配置项的设置,另外hadoop读取数据的时候一般先访问本机柜的上的节点中数据再访问别的机柜,所以集群机器的部署还是要考究的

2.原理分析

这个问题比较笼统而且hadoop的原理不是一句两句能说得清的,可以私下聊、具体可以从客户端如何跟namenode取得链接,通过什么样的数据格式进行传输,namenode跟datanode之间通过rpc进行互访通过packet的数据格式进行传输,datanode节点之间既作为客户端又作为服务端,既要保证数据传输出去又要保证数据能够准确写入目标节点(checksum验证机制)等等

3.实例参考

a.数据量大要求速度不是很快进行数据清洗的时候考虑使用MR编程

b.如果想使用sql就解决问题可以考虑使用hive,但是要注意对hivesql的优化比如大表关联小表,小表关联小表等等

据我使用hadoop的经验是最优使用hadoop都是在实战中逐渐调整出来的,比如设置mr过程中m端内存设置多少,并发数设置多大,中间的partition过程采用哪种,reduce内存多少等等并没有唯一的答案,具体场景具体分析

收起
互联网服务 · 2015-10-14
浏览1127
lufeng1102lufeng1102  软件架构设计师 , cm
想了解一下,.数据量大要求速度快有没有什么好办法?使用SQL什么场景下推荐使用Spark SQL或者Impala呢?像你所说的M端与R端内存配置属于很细节的配置,像HiveSQL启动的MR程序能不能做到这一点?...显示全部

想了解一下,.数据量大要求速度快有没有什么好办法?使用SQL什么场景下推荐使用Spark SQL或者Impala呢?像你所说的M端与R端内存配置属于很细节的配置,像HiveSQL启动的MR程序能不能做到这一点?

收起
软件开发 · 2015-10-15
浏览1045

提问者

Lancer
Lancer91718
项目经理互联网
擅长领域: 数据库服务器大数据

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2015-10-14
  • 关注会员:5 人
  • 问题浏览:4721
  • 最近回答:2015-10-15
  • X社区推广