我要读的parquet文件大小都是7.2GB大小,block.size目前不知道多少,我的程序在读的时候每个partition最大大小是128M,修改了上述参数也没有效果。我希望在读取的时候能直接改变partition的大小,避免后期repartition产生其...
无论是hive还是spark,数据都是按数据块大小读取。建议试下写parquet文件前设置parquet.block.size参数,保证每个块大小合适,如果要在读取时改变并行效果,可以通过设置repartition调整partition个数。通过两个参数配合应该...
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024 talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30