IT咨询服务大数据 spark spark数据导入

请教大数据spark专业问题？

询问spark问题：如何设计集群规模？spark mysql读取数据是在driver端还是executor端？spark streaming每批次处理多少条数据？spark sql统计是的时候多次分组会产生shuffle，解决的方法是重分区后再计算，这种为什么会降低计算消耗？spark streaming消费kafka，如果消费不过来怎么处理？

关注 2

参与3

1 同行回答

互联网服务
全部行业 互联网服务

|

按赞同排序

按时间排序

zftang 其它小白一枚

executor是真正执行task地方，而task执行离不开具体的数据，这些task运行的结果可以是shuffle中间结果，也可以持久化到外部存储系统。一般都是将结果、状态等汇集到driver。但是，目前executor之间不能互相通信，只能借助第三方来实现数据的共享或者通信。

收起

互联网服务 · 2022-12-12

twt社区管理员邀答

提问者

wangzimingsq88 1 5 29

软件开发工程师本钢矿业公司

擅长领域：服务器，云计算，数据库

关注13

回答25

请教大数据spark专业问题？

1 同行回答

互联网服务
全部行业 互联网服务

|

按赞同排序

按时间排序

提问者

相关问题

相关资料

相关文章

问题状态

请教大数据spark专业问题？

1 同行回答 互联网服务 全部行业 互联网服务 | 按赞同排序 按时间排序

提问者

相关问题

相关资料

相关文章

问题状态

1 同行回答

互联网服务
全部行业互联网服务

|

按赞同排序

按时间排序