大数据分析平台容器化后底层存储如何设置?

大数据分析平台在物理机下依赖于底层的多副本模式来提高性能,但是容器化后,底层存储变为不可见的,这时候该如何设置?是否依然采用多副本模式?这种模式是否会和底层存储方式有冲突?...显示全部

大数据分析平台在物理机下依赖于底层的多副本模式来提高性能,但是容器化后,底层存储变为不可见的,这时候该如何设置?是否依然采用多副本模式?这种模式是否会和底层存储方式有冲突?

收起
参与13

查看其它 2 个回答zhaoxiyi的回答

zhaoxiyizhaoxiyi资深电信行业解决方案架构师红帽企业级开源解决方案中心

1、大数据分析平台目前仍由 Hadoop 技术体系的分布式运算,OLAP 数据库体系的数据集市等不同的技术体系支撑。如果以 Hadoop 的角度来看。容器平台对 Hadoop 的意义在于,可以模式化定义扩缩容。因为容器化的扩缩容体系是目前各种技术中维护能力最强、维护成本最低的。他可以一定程度上屏蔽操作系统版本、技术库版本等不一致的问题。同时他也是最适应弹性变更的。因此对于 Hadoop 的存储层设计来讲,容器技术唯一的价值在于,他可以更好的动态调度节点并协调各节点之间的关系。然而 Hadoop的存储和计算是一体的,这就导致,如果容器化就要解决存储供应问题。目前主流的方案是放弃 HDFS 的多副本。由Storage Class 供应的 PV 本身保障多副本。或是由 Soft Define Storage 软件的配套机制实现多副本保障,并通过配套备份恢复工具来保障数据可靠性。当然这个配合度没有 HDFS 本身的多副本高,还需要一些配合方案来协调。但是好处是可以获得更多的开源能力的支持,例如 Open Cache Acceleration Software (Open CAS), 如我们在国外的实际项目中有借助 Intel ® Cache Acceleration Software ( Intel ® CAS ) caches 技术加速 Ceph 对存储 NVMe 使用的能力来提升整体的磁盘 I/O 技术从而提高整体容器上Hadoop处理性能的案例。

2、如果针对 OLAP 数据库,那么相应的容器化比较困难,由于其基本完全依赖底层存储,所以我们即使真的实现容器化了,那么存储仍然需要使用经典高性能存储技术,通过容器内部配置实现独立的高性能存储对接,而且这里并不能获得更多的容器化带来的优势。因为基本上 OLAP 都是多节点共同完成一个任务,基本上无法通过分布计算能力单元来提升并行处理能力。因此这部分不太适应容器化。

软件开发 · 2020-04-02
浏览1553

回答者

zhaoxiyi
资深电信行业解决方案架构师红帽企业级开源解决方案中心
擅长领域: 云计算容器容器云

zhaoxiyi 最近回答过的问题

回答状态

  • 发布时间:2020-04-02
  • 关注会员:4 人
  • 回答浏览:1553
  • X社区推广