大数据平台业务分析人员,如何使用分析工具,提高跨工具、跨平台、多引擎的查询分析服务功能?

大数据平台业务分析人员,如何使用分析工具,提高跨工具、跨平台、多引擎的查询分析服务功能。

参与13

2同行回答

zhuqibszhuqibs  软件开发工程师 , Adidas
这个问题很抽象。不好回答,我的建议是,你不要这么干,因为效率太低了。如果,你这么干的话,就把etl的活也让分析人员给包了,目前,这样的工具很少。通常的做法是把数据从多个数据源抽取过来,不论数据在哪里都要抽取,包括爬虫(当然合理合法范围),然后集中在hdfs上,让分析人员进行分析。分...显示全部

这个问题很抽象。不好回答,我的建议是,你不要这么干,因为效率太低了。

如果,你这么干的话,就把etl的活也让分析人员给包了,目前,这样的工具很少。通常的做法是把数据从多个数据源抽取过来,不论数据在哪里都要抽取,包括爬虫(当然合理合法范围),然后集中在hdfs上,让分析人员进行分析。分析人员注重分析的逻辑,而数据抽取人员注重底层的抽取技术,这种分割比较好。目前spss可以对接hadoop和传统数据库,python也可以对接,但数据源太多了,忙不过来。

收起
互联网服务 · 2020-04-02
浏览1648
zhaoxiyizhaoxiyi  资深电信行业解决方案架构师 , 红帽企业级开源解决方案中心
1、目前主流的技术倾向是将原有数据管理体系,从新规划为数据湖体系。而数据湖体系与数据集市体系最大的差别就在于,数据集市是单一数据体系将ETL获得的数据进行再规划,形成集市化重整里的多数据副本。它是物化视图的进阶产物,由于脱离了原数据表结构,因此不在受单一数据源的桎...显示全部

1、目前主流的技术倾向是将原有数据管理体系,从新规划为数据湖体系。而数据湖体系与数据集市体系最大的差别就在于,数据集市是单一数据体系将ETL获得的数据进行再规划,形成集市化重整里的多数据副本。它是物化视图的进阶产物,由于脱离了原数据表结构,因此不在受单一数据源的桎梏,可以较合理的形成面向分析任务的适应性数据源。而数据湖则是扩大化的集市,它的理论体系是脱离于单一数据源外,依托大数据或其它自由数据承载体快速建立池化数据存储,它的建设本身就会考虑到跨平台、跨业务域、跨技术、跨引擎的数据治理整体。但数据的构建相对来讲是一个复杂的整体性工程,甚至比我们之前构建Hadoop大数据平台还要复杂。是数据处理概念而不是具体哪一个技术。我个人倾向于基于容器化 PaaS 平台来构建数据湖,因为在PaaS技术中池化数据载体是最容易快速搭建快速整理的。因此 PaaS 更容易形成可治理“湖”。当然现在主流技术更倾向于基于 Hadoop 建湖,这是因为我们这几年在 Hadoop 上投入较多,经验比较丰富。好在这只是技术途径之争,对于最终“数据湖”概念还是没有太多争议的。数据湖理念本身就包含跨平台分析与多引擎分析,多引擎查询的实现。

2、在 PaaS 上目前最主要的跨平台、跨技术分析体系倾向基于 Promethues + Grafana 来实现。主要是因为 Promethues + Grafana 目前的生态环境最好,兼容性最佳。因此任何常见技术都可以通过现有生态内的工具像 Promethues 进行数据供应。从而快速基于 Grafana 进行数据展现。但总的来说技术并不是实现的关键。体系才是实现的关键。跨工具、跨平台、多引擎查询分析,核心要解决的问题是中间数据处理问题。根据不同的业务需求,采用流式数据处理技术、还是中间缓存通过 MepReduce 进行汇总,是采用Lambada 体系还是 Kapa 体系,核心都是业务需求与目标问题。在我昨天分享的 PPT 中介绍了集中中台数据缓冲技术,例如 AMQ Stream 的kafka 中台。 Redhat Data Grid 的内存 NoSQL 数据网格缓冲存储。 Redhat JBoss Data Virtualization 做多数据源统一虚拟视图。还有 “ zhuqibs ” 专家提到的爬虫等技术,这些都能有效的帮助用户实现各自的特定业务分析目标。

3、在混合云中目前也倾向于利用 S3 接口来实现直接基于软定义存储的高效数据交换与存储。这种机制可以有效的降低数据缓冲以及中间存储的复杂度与技术、设备成本。目前很多 AI/ML 的实现都会借助 S3 来实现临时数据交换。 Redhat OpenShift Container Storage 通过 Ceph 的 S3 接口也可以提供相应的能力。用户可以直接借助 OpenShift + OpenShift Container Storage 的PV/PVC管理机制快速实现低效、中间数据可靠性缓冲与交换服务。

收起
软件开发 · 2020-04-04
浏览1758

提问者

liuziyi0123
系统工程师中移系统集成有限公司
擅长领域: 服务器系统管理存储

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2020-03-30
  • 关注会员:3 人
  • 问题浏览:2988
  • 最近回答:2020-04-04
  • X社区推广