互联网服务Hadoop spark spark优化

hadoop+spark 集群环境资源预估？

现在系统采用的是oozie集成spark2。Oozie部署到Java Servlet容器中运行，使用sparksubmit的方式提交任务。
现在的数据量级在20T左右的数据，但是不知道怎么预估集群所需要的资源数。CPU及内存的需要。每次读取的数据也在500G左右的运算。进行的是SPARK SQL的操作。
请问下一般对集群资源的估算，有无参考的公式或者业内一般的经验方法。因为无法边运行边添加，所以此方案就暂时PASS。

参与3

1同行回答
全部行业
全部行业 互联网服务
|
按赞同排序
按时间排序

美国队长研发工程师Alibaba

可以先结合具体的业务场景，将数据按照时效性进行分类，如实时、准实时、离线，实时的数据从数据量层面去衡量内存的分配，CPU即线程数等，同时从成本上考虑对现有的数据进行压缩存放，具体的压缩策略可以结合具体场景衡量

互联网服务 · 2019-08-30

浏览2500

twt社区管理员，彬彬邀答

提问者

课题专家组

CIO某大型银行

擅长领域：数据库，国产数据库，人工智能

评论388

相关问题

系统迁移，国产化转信创如何实施？

医疗大数据平台不同的建设路线底层基础架构设计时有什么要求？

关于用于建模和机器学习的技术方案？

能否推荐一下大数据spark在冶金制造业相关项目经验和书籍？

请教大数据spark专业问题？

相关资料

基于ZooKeeper搭建Hadoop高可用集群

《深度剖析Hadoop HDFS》-第一部分

阿里Hadoop集群架构及服务体系

Hadoop-100道面试题及答案解析

《深度剖析Hadoop HDFS》-第二部分

相关文章

中小银行大数据平台建设实践分享

Hadoop集群3台服务器系统异常重分析

某银行大数据平台的架构设计及应用实践经验

问题状态

发布时间：2019-08-26

关注会员：2 人

问题浏览：3630

最近回答：2019-08-30

关于TWT 使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们
© 2024talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

X社区推广