互联网服务Hadoop spark spark优化

hadoop+spark 集群环境资源预估？

现在系统采用的是oozie集成spark2。Oozie部署到Java Servlet容器中运行，使用sparksubmit的方式提交任务。现在的数据量级在20T左右的数据，但是不知道怎么预估集群所需要的资源数。CPU及内存的需要。每次读取的数据也在500G左右的运算。进行的是SPARK SQL的操作。请问下一...显示全部

参与3

返回美国队长的回答

美国队长研发工程师Alibaba

可以先结合具体的业务场景，将数据按照时效性进行分类，如实时、准实时、离线，实时的数据从数据量层面去衡量内存的分配，CPU即线程数等，同时从成本上考虑对现有的数据进行压缩存放，具体的压缩策略可以结合具体场景衡量

互联网服务 · 2019-08-30

浏览2504

twt社区管理员，彬彬邀答

回答者

研发工程师Alibaba

擅长领域：大数据，大数据平台，数据库

评论172

美国队长最近回答过的问题

ambari的HADOOP集群，下SPARK2 HIVE HBASE等组件整合问题，类找不到？

问下页面发送请求，然后分布式计算再把结果返回给请求端，这个可以用spark实现吗？

基于hbase的用电信息采集系统如何设计？

Hadoop格式化时报错？

超大数据库的在线迁移问题？

回答状态

发布时间：2019-08-30

关注会员：2 人

回答浏览：2504

关于TWT 使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们
© 2024talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

X社区推广