"hadoop如何进行优化效率" 这个问题比较大, 不同的场景,组件,业务逻辑,数据类型, 硬件配置等等都都会有不同的情况和策略; 从思路上讲: 1. 首先确定优化对象的第一瓶颈在哪里 ? 大类可分为: iops, CPU使用率, 内存使用率, 网络传输速...
显示全部
"hadoop如何进行优化效率" 这个问题比较大, 不同的场景,组件,业务逻辑,数据类型, 硬件配置等等都都会有不同的情况和策略; 从思路上讲:
1. 首先确定优化对象的第一瓶颈在哪里 ? 大类可分为: iops, CPU使用率, 内存使用率, 网络传输速率;
2. 确定该瓶颈是否可以解决, 如果可以, 那就扩展硬件解决瓶颈, 如果硬件无法或不能再扩展:
3. 那就从Hadoop层考虑,进行参数调整以减弱相关的硬件压力, 比如较低HDFS的复制数, 可以降低网络流量,提高响应速度;
4. 如果以上三点都没有太大的优化空间, 那么可以从问题需求这个高端来重新审视你的分析平台的设计;
5. 最后,如果可能的话, 也可以考虑将Hadoop不擅长的处理提取到Hadoop之外进行预处理, 然后再交给Hadoop处理;
总之, 无论什么优化, 都不能一言以概之, 都要具体问题具体分析; 法无定法.
收起