询问spark问题:如何设计集群规模?spark mysql读取数据是在driver端还是executor端?spark streaming每批次处理多少条数据?spark sql统计是的时候多次分组会产生shuffle,解决的方法是重分区后再计算,这种为什么会降低计算消耗?spark streaming消费kafka,如果消费不过来怎么处理?
executor是真正执行task地方,而task执行离不开具体的数据,这些task运行的结果可以是shuffle中间结果,也可以持久化到外部存储系统。一般都是将结果、状态等汇集到driver。但是,目前executor之间不能互相通信,只能借助第三方来实现数据的共享或者通信。
关于TWT 使用指南社区专家合作 厂商入驻社区 企业招聘投诉建议版权与免责声明联系我们 © 2024 talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30