大数据实时数仓构建一般选型技术方案是怎样的?

原有业务系统多使用Oracle或mysql,如何实时接入到大数据平台的组件内,满足实时查询及实时计算的需求。 具体需求如下:
1.多个业务系统数据融合进行关联实时查询。
2.流计算flink 如何做,能快速开发满足统计类实时计算的需求。
3.大屏展示指标比较多,如何快速响应多并发实时查询。

参与5

2同行回答

肖根元肖根元深圳深圳证券通信公司
针对您的问题,答复一下如下,仅供参考1.多个业务系统数据融合进行关联实时查询。     答复:首先,是把多个业务系统的数据ETL抽取过来,集中存储到贴源库;其次,是数据分析,识别业务主键;再次,是通过业务主键,进行数据关联、加工,并进入数据仓库的DWD层;最后,根据业务要求,构建关联后...显示全部

针对您的问题,答复一下如下,仅供参考
1.多个业务系统数据融合进行关联实时查询。
    答复:首先,是把多个业务系统的数据ETL抽取过来,集中存储到贴源库;其次,是数据分析,识别业务主键;再次,是通过业务主键,进行数据关联、加工,并进入数据仓库的DWD层;最后,根据业务要求,构建关联后的集市表,提供给业务查询。
2.流计算flink 如何做,能快速开发满足统计类实时计算的需求。
    答复:Flink能满足最新值计算、累计值计算、窗口计算等多种计算模式。简单计算尽量Flink-SQL能搞定,降低开发难度,少量复杂计算通过Java自定义算子实现。
3.大屏展示指标比较多,如何快速响应多并发实时查询。
   答复: 有两种主流的方法;一是:实时数据推送,大屏订阅数据,后台指标数据变化,主动推送过来;二是:前端轮询+后端缓存。

收起
证券 · 2022-07-05
浏览704
撒加撒加创始人兼CTO上海六卫网络科技有限公司
关于这块,要满足实时查询、实时计算,必须满足两个条件1、业务系统的数据是实时获取的2、实时查询需要大数据平台具备强大的算力在数据实时获取方面,需要考虑是用商业产品还是开源产品。差别在于:商业产品对Oracle、MySQL的支持比较好,图形化操作,例如我们公司在推的HVR产品。再...显示全部

关于这块,要满足实时查询、实时计算,必须满足两个条件
1、业务系统的数据是实时获取的
2、实时查询需要大数据平台具备强大的算力

在数据实时获取方面,需要考虑是用商业产品还是开源产品。差别在于:
商业产品对Oracle、MySQL的支持比较好,图形化操作,例如我们公司在推的HVR产品。再比如Oracle OGG。其他的同类产品,在源端增量数据比较大的情况下,极易出现数据超时的问题。

在实时查询方面及实时计算方面,有两种做法:
1、利用MPP架构的数据仓库,做为企业的大数据平台,目前Greenplum、MatrixDB都是可选的产品,其中MatrixDB的性能要比Greenplum搞6倍以上,可以满足实时查询的场景。
2、利用实时数据同步工具,例如HVR,将Oracle、MySQL的数据实时集成到Kafka,然后利用Flink进行流批一体计算,然后将结果存入MySQL或者Oracle。

大屏展示指标多,如何快速响应多并发实时查询
这个就需要底层数据仓库平台提供高并发的能力,如果用Hive来建设,投入服务器硬件成本是比较高的,组件多运维复杂。如果选择MatrixDB、Teradata Vantage来做,就可以在6台服务器规模下,满足这个需求,尤其是高并发实时查询的场景可以得到解决。

我司提供HVR、MatrixDB、Teradata、Yellowbrick Data(企业中数据量超过10TB,且需要支持200人以上并发用户场景即席查询可以选择)的整体解决方案,可以提供上述需求的商业化解决方案。

收起
IT咨询服务 · 2022-05-13
浏览804

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2022-05-13
  • 关注会员:3 人
  • 问题浏览:1872
  • 最近回答:2022-07-05
  • X社区推广