大数据平台业务分析人员，如何使用分析工具，提高跨工具、跨平台、多引擎的查询分析服务功能？

大数据平台业务分析人员，如何使用分析工具，提高跨工具、跨平台、多引擎的查询分析服务功能。

参与13

查看其它 1 个回答zhaoxiyi的回答

1、目前主流的技术倾向是将原有数据管理体系，从新规划为数据湖体系。而数据湖体系与数据集市体系最大的差别就在于，数据集市是单一数据体系将ETL获得的数据进行再规划，形成集市化重整里的多数据副本。它是物化视图的进阶产物，由于脱离了原数据表结构，因此不在受单一数据源的桎梏，可以较合理的形成面向分析任务的适应性数据源。而数据湖则是扩大化的集市，它的理论体系是脱离于单一数据源外，依托大数据或其它自由数据承载体快速建立池化数据存储，它的建设本身就会考虑到跨平台、跨业务域、跨技术、跨引擎的数据治理整体。但数据的构建相对来讲是一个复杂的整体性工程，甚至比我们之前构建Hadoop大数据平台还要复杂。是数据处理概念而不是具体哪一个技术。我个人倾向于基于容器化 PaaS 平台来构建数据湖，因为在PaaS技术中池化数据载体是最容易快速搭建快速整理的。因此 PaaS 更容易形成可治理“湖”。当然现在主流技术更倾向于基于 Hadoop 建湖，这是因为我们这几年在 Hadoop 上投入较多，经验比较丰富。好在这只是技术途径之争，对于最终“数据湖”概念还是没有太多争议的。数据湖理念本身就包含跨平台分析与多引擎分析，多引擎查询的实现。

2、在 PaaS 上目前最主要的跨平台、跨技术分析体系倾向基于 Promethues + Grafana 来实现。主要是因为 Promethues + Grafana 目前的生态环境最好，兼容性最佳。因此任何常见技术都可以通过现有生态内的工具像 Promethues 进行数据供应。从而快速基于 Grafana 进行数据展现。但总的来说技术并不是实现的关键。体系才是实现的关键。跨工具、跨平台、多引擎查询分析，核心要解决的问题是中间数据处理问题。根据不同的业务需求，采用流式数据处理技术、还是中间缓存通过 MepReduce 进行汇总，是采用Lambada 体系还是 Kapa 体系，核心都是业务需求与目标问题。在我昨天分享的 PPT 中介绍了集中中台数据缓冲技术，例如 AMQ Stream 的kafka 中台。 Redhat Data Grid 的内存 NoSQL 数据网格缓冲存储。 Redhat JBoss Data Virtualization 做多数据源统一虚拟视图。还有 “ zhuqibs ” 专家提到的爬虫等技术，这些都能有效的帮助用户实现各自的特定业务分析目标。

3、在混合云中目前也倾向于利用 S3 接口来实现直接基于软定义存储的高效数据交换与存储。这种机制可以有效的降低数据缓冲以及中间存储的复杂度与技术、设备成本。目前很多 AI/ML 的实现都会借助 S3 来实现临时数据交换。 Redhat OpenShift Container Storage 通过 Ceph 的 S3 接口也可以提供相应的能力。用户可以直接借助 OpenShift + OpenShift Container Storage 的PV/PVC管理机制快速实现低效、中间数据可靠性缓冲与交换服务。

软件开发 · 2020-04-04

大数据平台业务分析人员，如何使用分析工具，提高跨工具、跨平台、多引擎的查询分析服务功能？

查看其它 1 个回答zhaoxiyi的回答

回答者

zhaoxiyi 最近回答过的问题

回答状态