问一下:如何修改spark sql在读取parquet文件时,每个partition的最大size?试过了spark.sql.files.maxPartitionBytes、spark.hadoop.mapreduce.input.fileinputformat.split.minsize、spark.files.maxPartitionBytes 参数都不行。。
无论是hive还是spark,数据都是按数据块大小读取。建议试下写parquet文件前设置parquet.block.size参数,保证每个块大小合适,如果要在读取时改变并行效果,可以通过设置repartition调整partition个数。通过两个参数配合应该能满足你的需求。
收起