如何应用容器化技术对传统数据仓库进行改造和优化?

如何应用容器化技术对传统的数据仓库及数仓应用进行改造和优化?我们目前使用的数据库环境不断更新,从传统的DB2,Oracle,迁移到MPP,Hive等,但数据的提取,加工和开放使用,还是沿用传统的ETL加工,Portal库+报表展现的方式。请问容器化技术能够应用在哪个环节,能否用于提高数据层的处理...显示全部

如何应用容器化技术对传统的数据仓库及数仓应用进行改造和优化?我们目前使用的数据库环境不断更新,从传统的DB2,Oracle,迁移到MPP,Hive等,但数据的提取,加工和开放使用,还是沿用传统的ETL加工,Portal库+报表展现的方式。
请问容器化技术能够应用在哪个环节,能否用于提高数据层的处理能力上,或只能够用于数据应用和数据开放环节呢?以及能够带来的优势有哪些?

收起
参与13

查看其它 2 个回答zhaoxiyi的回答

zhaoxiyizhaoxiyi资深电信行业解决方案架构师红帽企业级开源解决方案中心

1、您提到的 ETL 体系是最适合云化改造的,由于传统的 ETL 途径是由项目初始设计固化设计的,通常会在系统发展过程中偏离数据业务使用目标。因此如果 ETL 转化为动态过程那么就可以实现数据的动态业务目的调整。但另一个问题就出现了,ETL可以 CI/CD 但是数据模型不可以,目前主流的理论都是在外围为数据做注解,这就是数据湖模型。数据湖是将数据仓库中数据动态提取后在湖内形成新的数据池,用以完成面向新数据业务目标的模型。

2、在云端重新实现ETL意味着需要重新构建部分主数据管理,包括数据溯源、数据治理、数据途径等方面的重新实现,这方面微服务体系可以帮上忙。

3、完成了数据供应,接下来就是数据应用。如我在今天讲解的PPT中所提到,未来数据可能会更加多元化,来源更加复杂,模型更加分散,使用途径和使用习惯可能变为更加倾向数学化使用的Deep learning等模型上,那么数据供应将不再像原有数据仓库体系中那么僵化。

4、我们总是期望数据能告诉我们一些我们不知道的,而数据仓库通常只能告诉我我们已知的结果有没有数据依据做支持。因此未来更多引入 AI/ML 就是为了能让数据产生未知的数据预期。这方面容器化就可以帮主用户快速建立高敏、尝试性数据使用途径。这就是为何我会提到在容器云上实现数据湖的原因。新的云端数据湖将更适应未来无预期数据使用模型的快速CI/CD构建途径。

5、微服务敏态开发的理论中并没有提出面向Portal或Portal库的设计理念,但是微服务会比较适应敏态报表开发。由过去使用经验得知,各种数据仓库自带的快速报表开发工具,通常没法很好的适应真实的业务报表供应场景,因为通用化和客适化的矛盾永远无法完全磨合。那么与其设计者和最终使用者都觉得别扭,还不如我们通过敏态开发,每次开发一个舒服的报表展现,按需随时提供给使用者使用。虽然会加大开发成本,但好在微服务设计理念给了我们这种开发体系的支持能力,让我可以用最小的代价快速开发敏态报表,随时交给相应人群使用。

6、刚才提到的敏态报表理论就是目前为何 Jupyter Notebook 如此受欢迎的根本原因。 OpenShift 上提供的 Open Data Hub 生态环境可以帮助客户快速实现Notebook as a Service 的能力。强化最终数据使用能力和效果。由于最终时间的原因,今天的讲解没能放入这部分内容,但是我在PPT资料里面放入了这部分内容,您可以参考一下PPT中的讲解。

软件开发 · 2020-04-02
浏览2285

回答者

zhaoxiyi
资深电信行业解决方案架构师红帽企业级开源解决方案中心
擅长领域: 云计算容器容器云

zhaoxiyi 最近回答过的问题

回答状态

  • 发布时间:2020-04-02
  • 关注会员:4 人
  • 回答浏览:2285
  • X社区推广