如何把控实时数据仓库的实时数据的粒度与历史数据仓库的历史数据的粒度?

如何把控实时数据仓库的实时数据的粒度与历史数据仓库的历史数据的粒度?显示全部

如何把控实时数据仓库的实时数据的粒度与历史数据仓库的历史数据的粒度?

收起
参与5

返回jamiee的回答

jamieejamiee数据库架构师某股份制银行

实时数仓的数据粒度应该要跟技术实现有关,我理解有起码有两类实现方式,一类存储指标等汇总数据,另一类是存储清洗后原始数据:
1.一类是基于根据实时采集的数据,在历史存储的指标基础上行加工新的指标值。这种实现方式是没有存放实时采集的数据,存储和使用的都是指标。这样做的好处是存储比较小,提供指标查询服务方便,用于报表展示、实时决策等应用的效率也比较方便。劣势是如果需要调整指标的统计口径,比如由统计一天调整成7天,只能从调整口径后累计7天的数据或者通过批量的方式从源系统导入7天的数据进行累加,两种方式都不太方便。
2.另一类是将实时采集的数据按照要求清洗后存储下来,由使用方发起请求时再计算指标值。这种方式存储的是清洗后的流水或状态类的数据,相对第一种数据存储比较大,好处是像上文提到那种指标口径变化比较方便,且除了提供指标数据外,还能直接提供明细或状态等的查询服务。

银行 · 2019-08-31
浏览1488

回答者

jamiee
数据库架构师某股份制银行
擅长领域: 大数据实时数仓数据库

jamiee 最近回答过的问题

回答状态

  • 发布时间:2019-08-31
  • 关注会员:2 人
  • 回答浏览:1488
  • X社区推广