lpstart

lpstart

网络工程师mvs

动态

2018-11-20 · 评论了回答

如何修改spark sql在读取parquet文件时，每个partition的最大size？

我要读的parquet文件大小都是7.2GB大小，block.size目前不知道多少，我的程序在读的时候每个partition最大大小是128M，修改了上述参数也没有效果。我希望在读取的时候能直接改变partition的大小，避免后期repartition产生其...

赞同 1
2018-11-20 · 赞同了回答

如何修改spark sql在读取parquet文件时，每个partition的最大size？

无论是hive还是spark，数据都是按数据块大小读取。建议试下写parquet文件前设置parquet.block.size参数，保证每个块大小合适，如果要在读取时改变并行效果，可以通过设置repartition调整partition个数。通过两个参数配合应该...

赞同 6
2018-11-20 · 发布了问题

如何修改spark sql在读取parquet文件时，每个partition的最大size？

关注 2

回答问题

浏览6206

回答1
2018-08-06 · 发布了问题

数据集市中的数据关系管理？

关注 3

回答问题

浏览2465

回答2
2018-06-14 · 赞同了文章

基于spark集群的券商个性化推荐系统架构设计最佳实践

专栏：最佳实践

评论4

赞 23
2018-06-14 · 关注了 windix

windix 商业分析师某证券公司

个人主页

发布46

回答17

关于 lpstart

用户名： lpstart
职位：网络工程师
公司： mvs
行业：互联网服务
社区声望：5
荣誉等级：0

关注TA的人

更多关注TA的人 >>

TA关注的人

更多TA关注的人 >>

关于TWT 使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们
© 2024 talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

X社区推广