现在系统采用的是oozie集成spark2。Oozie部署到Java Servlet容器中运行,使用sparksubmit的方式提交任务。现在的数据量级在20T左右的数据,但是不知道怎么预估集群所需要的资源数。CPU及内存的需要。每次读取的数据也在500G左右的运算。进行的是SPARK SQL的操作。请问下一般对集群资源的估算,有无参考的公式或者业内一般的经验方法。因为无法边运行边添加,所以此方案就暂时PASS。
可以先结合具体的业务场景,将数据按照时效性进行分类,如实时、准实时、离线,实时的数据从数据量层面去衡量内存的分配,CPU即线程数等,同时从成本上考虑对现有的数据进行压缩存放,具体的压缩策略可以结合具体场景衡量
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30