spark sql - 主题 - twt企业IT交流平台

spark sql

spark sql

该主题还没有描述

热点

热点

互联网服务spark·2018-11-20

如何修改spark sql在读取parquet文件时，每个partition的最大size？

rein07 · 某证券　擅长领域：人工智能, 大数据, 机器学习

581 会员关注

无论是hive还是spark，数据都是按数据块大小读取。建议试下写parquet文件前设置parquet.block.size参数，保证每个块大小合适，如果要在读取时改变并行效果，可以通过设置repartition调整partition个数。通过两个参数配合应该能满足你的需求。...

浏览6197

描述

该主题还没有描述

关于TWT 使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们
© 2024talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

X社区推广