现在在HIVE仓库中单表存放有大约5亿的数据量,需要导入到PG数据库集群中去。因为每个PG库的单表一般要满足复杂的逻辑查询,数据量不超过500W到1000W。这样就需要100个左右的PG库。那么有什么好的工具能够按照一定的规则,将HIVE仓库中的数据分别导出到PG数据库中。不同的导出之间,如何进行调度控制。有无行业成熟方案。
可以将hiv重新插入一个动态分区中,然后每个分区对应一个pg库,可以通过hive sql读取指定分区插入pg中,可以用spark sql读hive,也可以通过hi ve找到对应hdfs文件路径,借助阿里开源工具datax或者社区开源工具sqoop进行hdfs导入到pg中
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30