互联网服务数据库集群 hive 数据仓库

HIVE数据仓库中的数据，如何导入到PG数据库集群中去？

现在在HIVE仓库中单表存放有大约5亿的数据量，需要导入到PG数据库集群中去。因为每个PG库的单表一般要满足复杂的逻辑查询，数据量不超过500W到1000W。这样就需要100个左右的PG库。那么有什么好的工具能够按照一定的规则，将HIVE仓库中的数据分别导出到PG数据库中。不同的导出...显示全部

参与4

返回jiangxiaoming的回答

jiangxiaoming软件开发工程师hw

可以将hiv重新插入一个动态分区中，然后每个分区对应一个pg库，可以通过hive sql读取指定分区插入pg中，可以用spark sql读hive，也可以通过hi ve找到对应hdfs文件路径，借助阿里开源工具datax或者社区开源工具sqoop进行hdfs导入到pg中

软件开发 · 2019-04-25

浏览3446

jillme
但是分区的数目是可能是不一样的。需要有个工具区调度这个sqoop。例如事务的一致性这些。
2019-04-25
赞同
评论

添加评论

回答者

软件开发工程师hw

擅长领域：大数据，hive，数据仓库

评论1

回答状态

发布时间：2019-04-25

关注会员：2 人

回答浏览：3446

关于TWT 使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们
© 2024talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

X社区推广