实时拿到数据后如何真正进行实时跑批?

很多实时数仓在使用CDC等技术后能够达到秒级数据同步,但后续加工仍然比较依赖传统数据库和传统的加工方式,导致只能定时跑批。如何能够达到实时etl加工?

参与5

2同行回答

gengyanggengyang数据仓库工程师民生银行
肯定要用类似streaming或flink这样的流处理组件而不是跑批。具体可以两种实现方案,一是cdc的目标不要设置为数据库而是设置为kafka,然后对接kafka或者flink,这种比较容易;二是目标为数据库,然后自己写程序实现轮训,这种比较复杂但对大数据组件没要求,适合小数据量处理。...显示全部

肯定要用类似streaming或flink这样的流处理组件而不是跑批。具体可以两种实现方案,一是cdc的目标不要设置为数据库而是设置为kafka,然后对接kafka或者flink,这种比较容易;二是目标为数据库,然后自己写程序实现轮训,这种比较复杂但对大数据组件没要求,适合小数据量处理。

收起
银行 · 2019-09-04
浏览2234
chailei_8306chailei_8306研发工程师城商行
如果必须实时跑批,也就是让后续的表能够实时变化。那么能想到的方案也就是用视图了。但这样就限制了实时数仓的规模。显示全部

如果必须实时跑批,也就是让后续的表能够实时变化。那么能想到的方案也就是用视图了。
但这样就限制了实时数仓的规模。

收起
银行 · 2019-09-04
浏览1895

提问者

chailei_8306
研发工程师城商行
擅长领域: 大数据数据库数据仓库

问题来自

相关问题

相关资料

问题状态

  • 发布时间:2019-09-04
  • 关注会员:2 人
  • 问题浏览:3554
  • 最近回答:2019-09-04
  • X社区推广