制约etl的瓶颈是什么?CPU 内存 IO还是网络?如何从IT架构方面去避免可能存在的瓶颈?
前面两位都总结的很好,其实涉及到大数据环境下的分部署并行运算,那最重要的问题在于后端的数据汇总部分,也就是我们常说的MR中的shuffle部分,大量的中间结果通过网络IO进行数据的迁移,带来的网络资源占用严重,无轮从计算本身也好还是逻辑也好,都需要进行优化与分析。
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30