IT咨询服务大数据 spark spark数据导入

请教大数据spark专业问题？

询问spark问题：如何设计集群规模？spark mysql读取数据是在driver端还是executor端？spark streaming每批次处理多少条数据？spark sql统计是的时候多次分组会产生shuffle，解决的方法是重分区后再计算，这种为什么会降低计算消耗？spark streaming消费kafka，如果消费不过来怎么处理？

参与3

1同行回答
全部行业
全部行业 互联网服务
|
按赞同排序
按时间排序

zftang其它小白一枚

executor是真正执行task地方，而task执行离不开具体的数据，这些task运行的结果可以是shuffle中间结果，也可以持久化到外部存储系统。一般都是将结果、状态等汇集到driver。但是，目前executor之间不能互相通信，只能借助第三方来实现数据的共享或者通信。

互联网服务 · 2022-12-12

浏览535

twt社区管理员邀答

提问者

wangzimingsq881526

软件开发工程师本钢矿业公司

擅长领域：服务器，数据库，云计算

评论209

相关问题

中小银行的数据安全分类分级如何做？

金融机构可以采取哪些措施来保障大数据时代下的数据安全？

大数据实时数仓构建一般选型技术方案是怎样的？

医院科研大数据平台，对临床医生要能真正有所帮助，无论是数据还是图像？

基础架构与医院信息系统的融合问题？

相关资料

“十四五”大数据产业发展规划

构建RAC架构及异地单机Data_Guard实施文档

头豹：2022年中国大数据产业一级市场纵览

Ansible运维管理平台部署、维护与调优

企业数据中台建设方案

相关文章

迈入ChatGPT时代商业银行AI应用的发展趋势分析

大数据时代下，金融行业数据安全防护面临挑战与落地措施探讨

河南农商联合银行招大数据风控、软件开发、网络安全等专业人才(郑州）

招聘 | 苏州农商银行金融科技部、数字银行部发布6个岗位

某城商行数据中台压测收获

问题状态

发布时间：2022-12-02

关注会员：2 人

问题浏览：980

最近回答：2022-12-12

关于TWT 使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们
© 2024talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

X社区推广