电信运营商商业智能容器数据仓库

如何应用容器化技术对传统数据仓库进行改造和优化？

如何应用容器化技术对传统的数据仓库及数仓应用进行改造和优化？我们目前使用的数据库环境不断更新，从传统的DB2，Oracle，迁移到MPP，Hive等，但数据的提取，加工和开放使用，还是沿用传统的ETL加工，Portal库+报表展现的方式。请问容器化技术能够应用在哪个环节，能否用于提高数据层的处理...显示全部

关注4

参与13

查看其它 2 个回答zhaoxiyi的回答

zhaoxiyi资深电信行业解决方案架构师红帽企业级开源解决方案中心

1、您提到的 ETL 体系是最适合云化改造的，由于传统的 ETL 途径是由项目初始设计固化设计的，通常会在系统发展过程中偏离数据业务使用目标。因此如果 ETL 转化为动态过程那么就可以实现数据的动态业务目的调整。但另一个问题就出现了，ETL可以 CI/CD 但是数据模型不可以，目前主流的理论都是在外围为数据做注解，这就是数据湖模型。数据湖是将数据仓库中数据动态提取后在湖内形成新的数据池，用以完成面向新数据业务目标的模型。

2、在云端重新实现ETL意味着需要重新构建部分主数据管理，包括数据溯源、数据治理、数据途径等方面的重新实现，这方面微服务体系可以帮上忙。

3、完成了数据供应，接下来就是数据应用。如我在今天讲解的PPT中所提到，未来数据可能会更加多元化，来源更加复杂，模型更加分散，使用途径和使用习惯可能变为更加倾向数学化使用的Deep learning等模型上，那么数据供应将不再像原有数据仓库体系中那么僵化。

4、我们总是期望数据能告诉我们一些我们不知道的，而数据仓库通常只能告诉我我们已知的结果有没有数据依据做支持。因此未来更多引入 AI/ML 就是为了能让数据产生未知的数据预期。这方面容器化就可以帮主用户快速建立高敏、尝试性数据使用途径。这就是为何我会提到在容器云上实现数据湖的原因。新的云端数据湖将更适应未来无预期数据使用模型的快速CI/CD构建途径。

5、微服务敏态开发的理论中并没有提出面向Portal或Portal库的设计理念，但是微服务会比较适应敏态报表开发。由过去使用经验得知，各种数据仓库自带的快速报表开发工具，通常没法很好的适应真实的业务报表供应场景，因为通用化和客适化的矛盾永远无法完全磨合。那么与其设计者和最终使用者都觉得别扭，还不如我们通过敏态开发，每次开发一个舒服的报表展现，按需随时提供给使用者使用。虽然会加大开发成本，但好在微服务设计理念给了我们这种开发体系的支持能力，让我可以用最小的代价快速开发敏态报表，随时交给相应人群使用。

6、刚才提到的敏态报表理论就是目前为何 Jupyter Notebook 如此受欢迎的根本原因。 OpenShift 上提供的 Open Data Hub 生态环境可以帮助客户快速实现Notebook as a Service 的能力。强化最终数据使用能力和效果。由于最终时间的原因，今天的讲解没能放入这部分内容，但是我在PPT资料里面放入了这部分内容，您可以参考一下PPT中的讲解。

软件开发 · 2020-04-02

如何应用容器化技术对传统数据仓库进行改造和优化？

查看其它 2 个回答zhaoxiyi的回答

回答者

zhaoxiyi 最近回答过的问题

回答状态