简单说说我的想法,---- 直接回答题干 ----如果说现有Hive作为数仓,那么性能肯定不能满足查询的,替代方案可以选择MPP数据库,但是由于MPP数据库目前看来还是有软硬件+人员能力限制条件的,基本上也要搞成一个团体作战项目才能摸索出来。你提到的多表关联倒不是什么障碍,建设数...
这两种方式可以从性能以及价格等方面进行考虑,如oracle数据库一体机产品,从选择的2种方式就价格及性能等方面进行考虑,若一体机的话产品选择面比较窄,可供选择的厂家不多,若采用全闪存储的话可以从多家厂商中进行选择,特别是对于招投标越来越严的形式下也是比较好的一种方式。...
这是一个很好的问题,不止数据中台,很多涉及历史数据查询的场景都会遇到。数据内容分层和数据组件分级是可以总结出一套明确方法论来指导实践的。笔者在之前的文章中曾经系统的分享过,各位架构师可以查询阅读。这里抛砖引玉,以金融业常见的客户交易明细查询场景为例,说明方法论...
两者的侧重点完全不一样(1)传统的数据仓库,做的是数据的聚集,将几个数据孤岛的数据汇总起来,做一定维度上的聚集和提炼;(2)数据中台,其实是做数据的标准化,也就是做数据治理、数据管控,使得数据资产化,可以供各个业务所使用。所以,数据中台的概念是包含数据仓库的,可以理解为数据仓库升...
按你说的要求。我觉得不会有免费的解决方案,毕竟敏感涉及到敏感数据的行业不多。免费的解决方案也肯定无法适用在这样特殊的行业中,真的有免费的。产生问题的时候也会有很多责任问题。所以我觉得不要考虑免费的解决方案。做数据加密的行业中。接触的不多。之前做分保找过北...
在处理非结构化数据的技术方面,区别较大,数据仓库主要面向结构化数据
容器的适用场合在于:应用单一、无状态化的地方所以,(1) 数据的ETL处理:是可以用的,可以将routie的etl脚本容器化;(2) 数据分析处理: 这种应用系统是可以容器化的,不过不是很好,曾经把rstudio容器化,比较复杂,效果不好,但不少分析工具,官方已经有容器版发布;(3)数据展现处理:有部分有docker...
我理解的大数据平台和数仓报表平台应该并不是一个升级替代的关系。大数据平台是一个综合的系统。而数仓只是大数据中的一部分基础。如果吧大数据比喻成一辆车。那数仓应该算是车的发动机。提供大数据中所有需要的各种动力。正常的架构应该是所有的子系统数据通过ETL汇总...
个人比较推荐kettle,主要kettle也支持集群。另外hadoop平台的mapreduce也可以作为ETL工具使用。