互联网服务Hadoop spark spark优化

hadoop+spark 集群环境资源预估？

现在系统采用的是oozie集成spark2。Oozie部署到Java Servlet容器中运行，使用sparksubmit的方式提交任务。
现在的数据量级在20T左右的数据，但是不知道怎么预估集群所需要的资源数。CPU及内存的需要。每次读取的数据也在500G左右的运算。进行的是SPARK SQL的操作。
请问下一般对集群资源的估算，有无参考的公式或者业内一般的经验方法。因为无法边运行边添加，所以此方案就暂时PASS。

关注2

参与3

hadoop+spark 集群环境资源预估？

1同行回答
%E4%BA%92%E8%81%94%E7%BD%91%E6%9C%8D%E5%8A%A1
全部行业 互联网服务
|
按赞同排序
按时间排序

提问者

相关问题

相关资料

相关文章

问题状态

hadoop+spark 集群环境资源预估？

1同行回答%E4%BA%92%E8%81%94%E7%BD%91%E6%9C%8D%E5%8A%A1全部行业互联网服务|按赞同排序按时间排序

提问者

相关问题

相关资料

相关文章

问题状态

1同行回答
%E4%BA%92%E8%81%94%E7%BD%91%E6%9C%8D%E5%8A%A1
全部行业互联网服务
|
按赞同排序
按时间排序