问一下:如何修改spark sql在读取parquet文件时,每个partition的最大size?试过了spark.sql.files.maxPartitionBytes、spark.hadoop.mapreduce.input.fileinputformat.split.minsize、spark.files.maxPartitionBytes 参数都不行。。
无论是hive还是spark,数据都是按数据块大小读取。建议试下写parquet文件前设置parquet.block.size参数,保证每个块大小合适,如果要在读取时改变并行效果,可以通过设置repartition调整partition个数。通过两个参数配合应该能满足你的需求。
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30