互联网服务Hadoopsparkspark优化

hadoop+spark 集群环境资源预估?

现在系统采用的是oozie集成spark2。Oozie部署到Java Servlet容器中运行,使用sparksubmit的方式提交任务。
现在的数据量级在20T左右的数据,但是不知道怎么预估集群所需要的资源数。CPU及内存的需要。每次读取的数据也在500G左右的运算。进行的是SPARK SQL的操作。
请问下一般对集群资源的估算,有无参考的公式或者业内一般的经验方法。因为无法边运行边添加,所以此方案就暂时PASS。

参与3

1同行回答

美国队长美国队长研发工程师Alibaba
可以先结合具体的业务场景,将数据按照时效性进行分类,如实时、准实时、离线,实时的数据从数据量层面去衡量内存的分配,CPU即线程数等,同时从成本上考虑对现有的数据进行压缩存放,具体的压缩策略可以结合具体场景衡量...显示全部

可以先结合具体的业务场景,将数据按照时效性进行分类,如实时、准实时、离线,实时的数据从数据量层面去衡量内存的分配,CPU即线程数等,同时从成本上考虑对现有的数据进行压缩存放,具体的压缩策略可以结合具体场景衡量

收起
互联网服务 · 2019-08-30
浏览2500

提问者

jillme
CIO某大型银行

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2019-08-26
  • 关注会员:2 人
  • 问题浏览:3630
  • 最近回答:2019-08-30
  • X社区推广