为了保证时效性,实时数仓的数据存储技术应该如何选择?

银行业一般会用实时数仓做风控类相关业务,对于数据查询的时效性要求较高。现有的hive是无法满足快速返回查询要求的。那么请问业界是否有已落地的较好的解决方案?比如impala、presto或者使用MPP数据库?如果有,还望告知下大概的执行效率是如何的,满足了哪些业务需求,感激~另外,对...显示全部

银行业一般会用实时数仓做风控类相关业务,对于数据查询的时效性要求较高。

现有的hive是无法满足快速返回查询要求的。那么请问业界是否有已落地的较好的解决方案?比如impala、presto或者使用MPP数据库?如果有,还望告知下大概的执行效率是如何的,满足了哪些业务需求,感激~

另外,对于数据的使用,存在多表关联,那么一些不适合多表关联的存储引擎,HBASE、ES这类我们已经先排除掉了。

0909更新:
目前较优解决方案:历史数据使用传统hive+impala,实时数仓使用kudu+impala

补充一下需求:
1.其实如一些回答说的,理想上的实时数仓,应该是一个流处理的不落地的过程,但是我们根据业务的部分需要,会将抽取、加工好的部分事实数据供做它用,其实从这里可以看到已经有实时+历史数仓的样子的。
2.我们已有数据仓库(hive),作为存量t+1数据存放。因此也是想找一个,是基于大数据平台的存储技术(考虑到易于扩容等因素),当然也有考虑过传统关系型数据库,但结合需求1,可能未来更想找到一个合适的技术,来将实时+历史的数仓统一存放,既有一定的OLAP效率,又有实时查询能力。

收起
参与24

查看其它 6 个回答Steven的回答

StevenSteven课题专家组IT顾问steven

似乎又是被数仓毒害的青少年

首先,数据中台不包括数仓,数仓,大数据平台是数据基础设施,是工具.

这个场景需求有多种实现方案,没必要抱着数仓一棵树上吊死, 实时风控可以基于数据风控模型,对实时数据进行分析,数据不进数据仓库,不存储,可以采用流数据处理,处理完的数据再存储.

证券 · 2020-08-05
浏览4757
匿名用户 邀答
  • 我们已有数据仓库(hive),作为存量t+1数据存放。现在是想建设一个有实时查询能力的实时数仓,从各系统的oracle数据库中通过抓取实时数据,经过Flink处理,落地到一个中间的数据存储中,这个中间的数据存储中存放的是加工好的数据。现在的需求呢,主要是想找到一个最好是基于大数据平台的存储技术(考虑到易于扩容等因素),来存放这类实时数据,当然就是想有较高的查询效率。 另外,我们通过已有的仓库,和即将建设的实时数仓的结合,又能提供给不同需求的上层应用。 另外标题我已改,应该说我们建设的更偏向于实时数仓
    2020-08-05
  • 请看下https://developer.aliyun.com/article/691541是否有帮助
    2020-08-06
  • 数据仓库->数据集市->数据湖->数据中台。
    2020-08-13

回答者

Steven
IT顾问steven
擅长领域: 云计算容器容器云

Steven 最近回答过的问题

回答状态

  • 发布时间:2020-08-05
  • 关注会员:8 人
  • 回答浏览:4757
  • X社区推广