大数据实时数仓构建一般选型技术方案是怎样的?

原有业务系统多使用Oracle或mysql,如何实时接入到大数据平台的组件内,满足实时查询及实时计算的需求。 具体需求如下:1.多个业务系统数据融合进行关联实时查询。2.流计算flink 如何做,能快速开发满足统计类实时计算的需求。3.大屏展示指标比较多,如何快速响应多并发实时查询...显示全部

原有业务系统多使用Oracle或mysql,如何实时接入到大数据平台的组件内,满足实时查询及实时计算的需求。 具体需求如下:
1.多个业务系统数据融合进行关联实时查询。
2.流计算flink 如何做,能快速开发满足统计类实时计算的需求。
3.大屏展示指标比较多,如何快速响应多并发实时查询。

收起
参与5

查看其它 1 个回答撒加的回答

撒加撒加创始人兼CTO上海六卫网络科技有限公司

关于这块,要满足实时查询、实时计算,必须满足两个条件
1、业务系统的数据是实时获取的
2、实时查询需要大数据平台具备强大的算力

在数据实时获取方面,需要考虑是用商业产品还是开源产品。差别在于:
商业产品对Oracle、MySQL的支持比较好,图形化操作,例如我们公司在推的HVR产品。再比如Oracle OGG。其他的同类产品,在源端增量数据比较大的情况下,极易出现数据超时的问题。

在实时查询方面及实时计算方面,有两种做法:
1、利用MPP架构的数据仓库,做为企业的大数据平台,目前Greenplum、MatrixDB都是可选的产品,其中MatrixDB的性能要比Greenplum搞6倍以上,可以满足实时查询的场景。
2、利用实时数据同步工具,例如HVR,将Oracle、MySQL的数据实时集成到Kafka,然后利用Flink进行流批一体计算,然后将结果存入MySQL或者Oracle。

大屏展示指标多,如何快速响应多并发实时查询
这个就需要底层数据仓库平台提供高并发的能力,如果用Hive来建设,投入服务器硬件成本是比较高的,组件多运维复杂。如果选择MatrixDB、Teradata Vantage来做,就可以在6台服务器规模下,满足这个需求,尤其是高并发实时查询的场景可以得到解决。

我司提供HVR、MatrixDB、Teradata、Yellowbrick Data(企业中数据量超过10TB,且需要支持200人以上并发用户场景即席查询可以选择)的整体解决方案,可以提供上述需求的商业化解决方案。

IT咨询服务 · 2022-05-13
浏览836

回答者

撒加
创始人兼CTO上海六卫网络科技有限公司

撒加 最近回答过的问题

回答状态

  • 发布时间:2022-05-13
  • 关注会员:3 人
  • 回答浏览:836
  • X社区推广