大数据分析平台容器化后底层存储如何设置？

大数据分析平台在物理机下依赖于底层的多副本模式来提高性能，但是容器化后，底层存储变为不可见的，这时候该如何设置？是否依然采用多副本模式？这种模式是否会和底层存储方式有冲突？

参与13

查看其它 2 个回答zhaoxiyi的回答

1、大数据分析平台目前仍由 Hadoop 技术体系的分布式运算，OLAP 数据库体系的数据集市等不同的技术体系支撑。如果以 Hadoop 的角度来看。容器平台对 Hadoop 的意义在于，可以模式化定义扩缩容。因为容器化的扩缩容体系是目前各种技术中维护能力最强、维护成本最低的。他可以一定程度上屏蔽操作系统版本、技术库版本等不一致的问题。同时他也是最适应弹性变更的。因此对于 Hadoop 的存储层设计来讲，容器技术唯一的价值在于，他可以更好的动态调度节点并协调各节点之间的关系。然而 Hadoop的存储和计算是一体的，这就导致，如果容器化就要解决存储供应问题。目前主流的方案是放弃 HDFS 的多副本。由Storage Class 供应的 PV 本身保障多副本。或是由 Soft Define Storage 软件的配套机制实现多副本保障，并通过配套备份恢复工具来保障数据可靠性。当然这个配合度没有 HDFS 本身的多副本高，还需要一些配合方案来协调。但是好处是可以获得更多的开源能力的支持，例如 Open Cache Acceleration Software (Open CAS)，如我们在国外的实际项目中有借助 Intel ® Cache Acceleration Software ( Intel ® CAS ) caches 技术加速 Ceph 对存储 NVMe 使用的能力来提升整体的磁盘 I/O 技术从而提高整体容器上Hadoop处理性能的案例。

2、如果针对 OLAP 数据库，那么相应的容器化比较困难，由于其基本完全依赖底层存储，所以我们即使真的实现容器化了，那么存储仍然需要使用经典高性能存储技术，通过容器内部配置实现独立的高性能存储对接，而且这里并不能获得更多的容器化带来的优势。因为基本上 OLAP 都是多节点共同完成一个任务，基本上无法通过分布计算能力单元来提升并行处理能力。因此这部分不太适应容器化。

软件开发 · 2020-04-02

大数据分析平台容器化后底层存储如何设置？

查看其它 2 个回答zhaoxiyi的回答

回答者

zhaoxiyi 最近回答过的问题

回答状态