互联网服务spark spark sql

如何修改spark sql在读取parquet文件时，每个partition的最大size？

问一下：如何修改spark sql在读取parquet文件时，每个partition的最大size？试过了spark.sql.files.maxPartitionBytes、spark.hadoop.mapreduce.input.fileinputformat.split.minsize、spark.files.maxPartitionBytes 参数都不行。。

收起

关注2

参与11

返回rein07的回答

rein07系统架构师某证券

无论是hive还是spark，数据都是按数据块大小读取。建议试下写parquet文件前设置parquet.block.size参数，保证每个块大小合适，如果要在读取时改变并行效果，可以通过设置repartition调整partition个数。通过两个参数配合应该能满足你的需求。

证券 · 2018-11-20

查看赞同的人

twt社区管理员邀答

lpstart
我要读的parquet文件大小都是7.2GB大小，block.size目前不知道多少，我的程序在读的时候每个partition最大大小是128M，修改了上述参数也没有效果。我希望在读取的时候能直接改变partition的大小，避免后期repartition产生其他的开销。这种情况，我应该怎么处理呢？
2018-11-20
赞同1
评论

添加评论

如何修改spark sql在读取parquet文件时，每个partition的最大size？

返回rein07的回答

回答者

rein07 最近回答过的问题

回答状态