为了保证时效性,实时数仓的数据存储技术应该如何选择?

银行业一般会用实时数仓做风控类相关业务,对于数据查询的时效性要求较高。

现有的hive是无法满足快速返回查询要求的。那么请问业界是否有已落地的较好的解决方案?比如impala、presto或者使用MPP数据库?如果有,还望告知下大概的执行效率是如何的,满足了哪些业务需求,感激~

另外,对于数据的使用,存在多表关联,那么一些不适合多表关联的存储引擎,HBASE、ES这类我们已经先排除掉了。

0909更新:
目前较优解决方案:历史数据使用传统hive+impala,实时数仓使用kudu+impala

补充一下需求:
1.其实如一些回答说的,理想上的实时数仓,应该是一个流处理的不落地的过程,但是我们根据业务的部分需要,会将抽取、加工好的部分事实数据供做它用,其实从这里可以看到已经有实时+历史数仓的样子的。
2.我们已有数据仓库(hive),作为存量t+1数据存放。因此也是想找一个,是基于大数据平台的存储技术(考虑到易于扩容等因素),当然也有考虑过传统关系型数据库,但结合需求1,可能未来更想找到一个合适的技术,来将实时+历史的数仓统一存放,既有一定的OLAP效率,又有实时查询能力。

参与24

7同行回答

amu0722amu0722CEO打毛党
正巧我司正在构建实时数仓,做之前我们也是有一些确切场景的需求,而且很容易被“实时”、“数仓”这两个词搞混。可以说下我们的想法,分解具体场景需求,而不是技术论需求。1.完全独立的场景比如实时监控类的指标,实时数据分析场景,这两个采用流式计算不落库的。2.需要与t-1与t+0...显示全部

正巧我司正在构建实时数仓,做之前我们也是有一些确切场景的需求,而且很容易被“实时”、“数仓”这两个词搞混。
可以说下我们的想法,分解具体场景需求,而不是技术论需求。1.完全独立的场景比如实时监控类的指标,实时数据分析场景,这两个采用流式计算不落库的。2.需要与t-1与t+0场景结合指标数据,参考楼上几位回复即可。存储再查询肯定会在查的时候做聚合,时间上也不会节省太多。

收起
生活生产服务其它 · 2020-08-09
浏览3954
  • “实时”和“数仓”,的确是两个纠缠不清概念。
    2020-08-13

提问者

匿名用户
其它某银行
擅长领域: 数据库服务器存储

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2020-07-31
  • 关注会员:8 人
  • 问题浏览:8959
  • 最近回答:2020-08-13
  • X社区推广