互联网服务sparkspark sql

如何修改spark sql在读取parquet文件时,每个partition的最大size?

问一下:如何修改spark sql在读取parquet文件时,每个partition的最大size?试过了spark.sql.files.maxPartitionBytes、spark.hadoop.mapreduce.input.fileinputformat.split.minsize、spark.files.maxPartitionBytes 参数都不行。。

参与11

1同行回答

rein07rein07系统架构师某证券
无论是hive还是spark,数据都是按数据块大小读取。建议试下写parquet文件前设置parquet.block.size参数,保证每个块大小合适,如果要在读取时改变并行效果,可以通过设置repartition调整partition个数。通过两个参数配合应该能满足你的需求。...显示全部

无论是hive还是spark,数据都是按数据块大小读取。建议试下写parquet文件前设置parquet.block.size参数,保证每个块大小合适,如果要在读取时改变并行效果,可以通过设置repartition调整partition个数。通过两个参数配合应该能满足你的需求。

收起
证券 · 2018-11-20
  • 我要读的parquet文件大小都是7.2GB大小,block.size目前不知道多少,我的程序在读的时候每个partition最大大小是128M,修改了上述参数也没有效果。我希望在读取的时候能直接改变partition的大小,避免后期repartition产生其他的开销。这种情况,我应该怎么处理呢?
    2018-11-20

提问者

lpstart
网络工程师mvs

相关问题

相关资料

问题状态

  • 发布时间:2018-11-20
  • 关注会员:2 人
  • 问题浏览:6181
  • 最近回答:2018-11-20
  • X社区推广