现在系统采用的是oozie集成spark2。Oozie部署到Java Servlet容器中运行,使用sparksubmit的方式提交任务。现在的数据量级在20T左右的数据,但是不知道怎么预估集群所需要的资源数。CPU及内存的需要。每次读取的数据也在500G左右的运算。进行的是SPARK SQL的操作。请问下一般对集群资源的估算,有无参考的公式或者业内一般的经验方法。因为无法边运行边添加,所以此方案就暂时PASS。
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30