前面两位都总结的很好,其实涉及到大数据环境下的分部署并行运算,那最重要的问题在于后端的数据汇总部分,也就是我们常说的MR中的shuffle部分,大量的中间结果通过网络IO进行数据的迁移,带来的网络资源占用严重,无轮从计算本身也好还是逻辑也好,都需要进行优化与分析。...
显示全部前面两位都总结的很好,其实涉及到大数据环境下的分部署并行运算,那最重要的问题在于后端的数据汇总部分,也就是我们常说的MR中的shuffle部分,大量的中间结果通过网络IO进行数据的迁移,带来的网络资源占用严重,无轮从计算本身也好还是逻辑也好,都需要进行优化与分析。
收起