HIVE数据仓库中的数据,如何导入到PG数据库集群中去?

现在在HIVE仓库中单表存放有大约5亿的数据量,需要导入到PG数据库集群中去。因为每个PG库的单表一般要满足复杂的逻辑查询,数据量不超过500W到1000W。这样就需要100个左右的PG库。那么有什么好的工具能够按照一定的规则,将HIVE仓库中的数据分别导出到PG数据库中。不同的导出...显示全部

现在在HIVE仓库中单表存放有大约5亿的数据量,需要导入到PG数据库集群中去。因为每个PG库的单表一般要满足复杂的逻辑查询,数据量不超过500W到1000W。这样就需要100个左右的PG库。那么有什么好的工具能够按照一定的规则,将HIVE仓库中的数据分别导出到PG数据库中。不同的导出之间,如何进行调度控制。有无行业成熟方案。

收起
参与4

返回jiangxiaoming的回答

jiangxiaomingjiangxiaoming软件开发工程师hw

可以将hiv重新插入一个动态分区中,然后每个分区对应一个pg库,可以通过hive sql读取指定分区插入pg中,可以用spark sql读hive,也可以通过hi ve找到对应hdfs文件路径,借助阿里开源工具datax或者社区开源工具sqoop进行hdfs导入到pg中

软件开发 · 2019-04-25
浏览3446
  • 但是分区的数目是可能是不一样的。需要有个工具区调度 这个sqoop。例如事务的一致性这些。
    2019-04-25

回答者

jiangxiaoming
软件开发工程师hw
擅长领域: 大数据hive数据仓库

回答状态

  • 发布时间:2019-04-25
  • 关注会员:2 人
  • 回答浏览:3446
  • X社区推广