互联网服务Hadoopsparkspark优化

hadoop+spark 集群环境资源预估?

现在系统采用的是oozie集成spark2。Oozie部署到Java Servlet容器中运行,使用sparksubmit的方式提交任务。现在的数据量级在20T左右的数据,但是不知道怎么预估集群所需要的资源数。CPU及内存的需要。每次读取的数据也在500G左右的运算。进行的是SPARK SQL的操作。请问下一...显示全部

现在系统采用的是oozie集成spark2。Oozie部署到Java Servlet容器中运行,使用sparksubmit的方式提交任务。
现在的数据量级在20T左右的数据,但是不知道怎么预估集群所需要的资源数。CPU及内存的需要。每次读取的数据也在500G左右的运算。进行的是SPARK SQL的操作。
请问下一般对集群资源的估算,有无参考的公式或者业内一般的经验方法。因为无法边运行边添加,所以此方案就暂时PASS。

收起
参与3

返回美国队长的回答

美国队长美国队长研发工程师Alibaba

可以先结合具体的业务场景,将数据按照时效性进行分类,如实时、准实时、离线,实时的数据从数据量层面去衡量内存的分配,CPU即线程数等,同时从成本上考虑对现有的数据进行压缩存放,具体的压缩策略可以结合具体场景衡量

互联网服务 · 2019-08-30
浏览2504

回答者

美国队长
研发工程师Alibaba
擅长领域: 大数据大数据平台数据库

美国队长 最近回答过的问题

回答状态

  • 发布时间:2019-08-30
  • 关注会员:2 人
  • 回答浏览:2504
  • X社区推广