请教大数据spark专业问题?

询问spark问题:如何设计集群规模?spark mysql读取数据是在driver端还是executor端?spark streaming每批次处理多少条数据?spark sql统计是的时候多次分组会产生shuffle,解决的方法是重分区后再计算,这种为什么会降低计算消耗?spark streaming消费kafka,如果消费不过来怎么处理?

参与3

提问者

wangzimingsq88
软件开发工程师本钢矿业公司
擅长领域: 服务器云计算数据库

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2022-12-02
  • 关注会员:2 人
  • 问题浏览:1012
  • 最近回答:2022-12-12
  • X社区推广