为了保证时效性，实时数仓的数据存储技术应该如何选择？

银行业一般会用实时数仓做风控类相关业务，对于数据查询的时效性要求较高。

现有的hive是无法满足快速返回查询要求的。那么请问业界是否有已落地的较好的解决方案？比如impala、presto或者使用MPP数据库？如果有，还望告知下大概的执行效率是如何的，满足了哪些业务需求，感激~

另外，对于数据的使用，存在多表关联，那么一些不适合多表关联的存储引擎，HBASE、ES这类我们已经先排除掉了。

0909更新：
目前较优解决方案：历史数据使用传统hive+impala，实时数仓使用kudu+impala

补充一下需求：
1.其实如一些回答说的，理想上的实时数仓，应该是一个流处理的不落地的过程，但是我们根据业务的部分需要，会将抽取、加工好的部分事实数据供做它用，其实从这里可以看到已经有实时+历史数仓的样子的。
2.我们已有数据仓库（hive)，作为存量t+1数据存放。因此也是想找一个，是基于大数据平台的存储技术（考虑到易于扩容等因素），当然也有考虑过传统关系型数据库，但结合需求1，可能未来更想找到一个合适的技术，来将实时+历史的数仓统一存放，既有一定的OLAP效率，又有实时查询能力。

关注8

参与24

提问者已获得满意解答

7同行回答
生活生产服务其它
全部行业 证券 IT咨询服务 互联网服务 生活生产服务其它 银行 软件开发
|
按赞同排序
按时间排序

amu0722CEO打毛党

正巧我司正在构建实时数仓，做之前我们也是有一些确切场景的需求，而且很容易被“实时”、“数仓”这两个词搞混。
可以说下我们的想法，分解具体场景需求，而不是技术论需求。1.完全独立的场景比如实时监控类的指标，实时数据分析场景，这两个采用流式计算不落库的。2.需要与t-1与t+0场景结合指标数据，参考楼上几位回复即可。存储再查询肯定会在查的时候做聚合，时间上也不会节省太多。

收起

生活生产服务其它 · 2020-08-09

查看赞同的人