请教大数据spark专业问题?

询问spark问题:如何设计集群规模?spark mysql读取数据是在driver端还是executor端?spark streaming每批次处理多少条数据?spark sql统计是的时候多次分组会产生shuffle,解决的方法是重分区后再计算,这种为什么会降低计算消耗?spark streaming消费kafka,如果消费不过来怎么处理?

参与3

1同行回答

zftangzftang其它小白一枚
executor是真正执行task地方,而task执行离不开具体的数据,这些task运行的结果可以是shuffle中间结果,也可以持久化到外部存储系统。一般都是将结果、状态等汇集到driver。但是,目前executor之间不能互相通信,只能借助第三方来实现数据的共享或者通信。...显示全部

executor是真正执行task地方,而task执行离不开具体的数据,这些task运行的结果可以是shuffle中间结果,也可以持久化到外部存储系统。一般都是将结果、状态等汇集到driver。但是,目前executor之间不能互相通信,只能借助第三方来实现数据的共享或者通信。

收起
互联网服务 · 2022-12-12
浏览535

提问者

wangzimingsq88
软件开发工程师本钢矿业公司
擅长领域: 服务器数据库云计算

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2022-12-02
  • 关注会员:2 人
  • 问题浏览:980
  • 最近回答:2022-12-12
  • X社区推广