实时拿到数据后如何真正进行实时跑批?

很多实时数仓在使用CDC等技术后能够达到秒级数据同步,但后续加工仍然比较依赖传统数据库和传统的加工方式,导致只能定时跑批。如何能够达到实时etl加工?显示全部

很多实时数仓在使用CDC等技术后能够达到秒级数据同步,但后续加工仍然比较依赖传统数据库和传统的加工方式,导致只能定时跑批。如何能够达到实时etl加工?

收起
参与5

查看其它 1 个回答gengyang的回答

gengyanggengyang数据仓库工程师民生银行

肯定要用类似streaming或flink这样的流处理组件而不是跑批。具体可以两种实现方案,一是cdc的目标不要设置为数据库而是设置为kafka,然后对接kafka或者flink,这种比较容易;二是目标为数据库,然后自己写程序实现轮训,这种比较复杂但对大数据组件没要求,适合小数据量处理。

银行 · 2019-09-04
浏览2233

回答者

gengyang
数据仓库工程师民生银行
擅长领域: 大数据实时数仓数据库

gengyang 最近回答过的问题

回答状态

  • 发布时间:2019-09-04
  • 关注会员:2 人
  • 回答浏览:2233
  • X社区推广