互联网服务spark spark sql

如何修改spark sql在读取parquet文件时，每个partition的最大size？

问一下：如何修改spark sql在读取parquet文件时，每个partition的最大size？试过了spark.sql.files.maxPartitionBytes、spark.hadoop.mapreduce.input.fileinputformat.split.minsize、spark.files.maxPartitionBytes 参数都不行。。

关注2

参与11

1同行回答
全部行业
全部行业 证券
|
按赞同排序
按时间排序

rein07系统架构师某证券

无论是hive还是spark，数据都是按数据块大小读取。建议试下写parquet文件前设置parquet.block.size参数，保证每个块大小合适，如果要在读取时改变并行效果，可以通过设置repartition调整partition个数。通过两个参数配合应该能满足你的需求。

收起

证券 · 2018-11-20

查看赞同的人

twt社区管理员邀答

lpstart
我要读的parquet文件大小都是7.2GB大小，block.size目前不知道多少，我的程序在读的时候每个partition最大大小是128M，修改了上述参数也没有效果。我希望在读取的时候能直接改变partition的大小，避免后期repartition产生其他的开销。这种情况，我应该怎么处理呢？
2018-11-20
赞同1
评论

添加评论

如何修改spark sql在读取parquet文件时，每个partition的最大size？

1同行回答
全部行业
全部行业 证券
|
按赞同排序
按时间排序

提问者

相关问题

相关资料

问题状态

如何修改spark sql在读取parquet文件时，每个partition的最大size？

1同行回答全部行业全部行业证券|按赞同排序按时间排序

提问者

相关问题

相关资料

问题状态

1同行回答
全部行业
全部行业证券
|
按赞同排序
按时间排序