准实时数仓的采用的技术架构,场景及落地情况?

1、关于准实时数仓的采用的技术架构2、其他银行准实时数仓产生的背景及数据场景(并发,数据量等)3、准实时数仓和现有的传统数据仓库分别如何定位和发展4、准实时数据的应用场景有哪些,分别的技术架构及落地情况...显示全部

1、关于准实时数仓的采用的技术架构
2、其他银行准实时数仓产生的背景及数据场景(并发,数据量等)
3、准实时数仓和现有的传统数据仓库分别如何定位和发展
4、准实时数据的应用场景有哪些,分别的技术架构及落地情况

收起
参与5

返回gengyang的回答

gengyanggengyang数据仓库工程师民生银行

这个问题比较大,现在很多银行包括互联网公司也都是在探索阶段。

关于背景其实没必要多说什么,现在对多种场景对数据的时效性要求都越来越高,从系统监控到实时营销,从内部管理到监管报送等诸多场景都要求建设实时数仓。

传统数仓在监管报送 / 风险管理 / 数据统计等方面已经做的很成熟,但在面对时效性要求较高的实时报送 / 实时营销 / 事中风控 / 实时资金管理与调拨等场景显得力不从心,这也是我们会在这里讨论实时数仓的原因。

关于实时数仓的技术,还是需要从四方面进行说明:数据接入 / 数据存储 / 数据加工 / 数据服务。数据接入:这块重点要考虑对源系统的侵入性 / 实时数据的负载等多种因素综合而定,目前有复制网络包, CDC ,日志收集等方式。数据存储:考虑到对数据时效性的要求,一半都是用类似 kafka 这样的分布式消息系统作为中间数据的存储。数据加工:目前成熟的有 storm/spark streaming/flink 等,目前用的较多的是 spark streaming ,但 flink 的批流合一的特色使得它有越来越流行的趋势,但这些组件对专业要求较高。数据服务:实时数据服务从实时数仓角度考虑有两种类型,一是主动推送型,如有转账时的实时营销场景,二是被动查询型,这种类型是在应用系统需要使用的时候再发起查询服务。

其实在建设实时数仓的过程中,可以参考下大家的普遍做法,但更多的是需要结合自己的实际情况,技术不是越新越好而是越适合自己越好。

银行 · 2019-09-04
浏览2523

回答者

gengyang
数据仓库工程师民生银行
擅长领域: 大数据实时数仓数据库

gengyang 最近回答过的问题

回答状态

  • 发布时间:2019-09-04
  • 关注会员:2 人
  • 回答浏览:2523
  • X社区推广