互联网服务Hadoopsparkspark优化

hadoop+spark 集群环境资源预估?

现在系统采用的是oozie集成spark2。Oozie部署到Java Servlet容器中运行,使用sparksubmit的方式提交任务。
现在的数据量级在20T左右的数据,但是不知道怎么预估集群所需要的资源数。CPU及内存的需要。每次读取的数据也在500G左右的运算。进行的是SPARK SQL的操作。
请问下一般对集群资源的估算,有无参考的公式或者业内一般的经验方法。因为无法边运行边添加,所以此方案就暂时PASS。

参与3

提问者

jillme
CIO某大型银行

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2019-08-26
  • 关注会员:2 人
  • 问题浏览:3650
  • 最近回答:2019-08-30
  • X社区推广