大数据分析平台容器化后底层存储如何设置?

大数据分析平台在物理机下依赖于底层的多副本模式来提高性能,但是容器化后,底层存储变为不可见的,这时候该如何设置?是否依然采用多副本模式?这种模式是否会和底层存储方式有冲突?

参与13

3同行回答

zhuqibszhuqibs软件开发工程师Adidas
提问者所谓的多副本提高底层的性能,是肯定不成立的,副本越多,底层的计算量越大,性能越低。华为云的底层副本优化,就是来避免多副本所带来的性能的恶化。容器化后,底层存储不可见,我还是费解,为什么呢?  底层是分布式存储,每个节点都可以看到,为啥不能用多副本呢? 实在没想通...显示全部

提问者所谓的多副本提高底层的性能,是肯定不成立的,副本越多,底层的计算量越大,性能越低。华为云的底层副本优化,就是来避免多副本所带来的性能的恶化。

容器化后,底层存储不可见,我还是费解,为什么呢?  底层是分布式存储,每个节点都可以看到,为啥不能用多副本呢? 实在没想通

收起
互联网服务 · 2020-04-05
浏览1456
zhaoxiyizhaoxiyi资深电信行业解决方案架构师红帽企业级开源解决方案中心
1、大数据分析平台目前仍由 Hadoop 技术体系的分布式运算,OLAP 数据库体系的数据集市等不同的技术体系支撑。如果以 Hadoop 的角度来看。容器平台对 Hadoop 的意义在于,可以模式化定义扩缩容。因为容器化的扩缩容体系是目前各种技术中维护能力最强、维护成本最低的。他可以...显示全部

1、大数据分析平台目前仍由 Hadoop 技术体系的分布式运算,OLAP 数据库体系的数据集市等不同的技术体系支撑。如果以 Hadoop 的角度来看。容器平台对 Hadoop 的意义在于,可以模式化定义扩缩容。因为容器化的扩缩容体系是目前各种技术中维护能力最强、维护成本最低的。他可以一定程度上屏蔽操作系统版本、技术库版本等不一致的问题。同时他也是最适应弹性变更的。因此对于 Hadoop 的存储层设计来讲,容器技术唯一的价值在于,他可以更好的动态调度节点并协调各节点之间的关系。然而 Hadoop的存储和计算是一体的,这就导致,如果容器化就要解决存储供应问题。目前主流的方案是放弃 HDFS 的多副本。由Storage Class 供应的 PV 本身保障多副本。或是由 Soft Define Storage 软件的配套机制实现多副本保障,并通过配套备份恢复工具来保障数据可靠性。当然这个配合度没有 HDFS 本身的多副本高,还需要一些配合方案来协调。但是好处是可以获得更多的开源能力的支持,例如 Open Cache Acceleration Software (Open CAS), 如我们在国外的实际项目中有借助 Intel ® Cache Acceleration Software ( Intel ® CAS ) caches 技术加速 Ceph 对存储 NVMe 使用的能力来提升整体的磁盘 I/O 技术从而提高整体容器上Hadoop处理性能的案例。

2、如果针对 OLAP 数据库,那么相应的容器化比较困难,由于其基本完全依赖底层存储,所以我们即使真的实现容器化了,那么存储仍然需要使用经典高性能存储技术,通过容器内部配置实现独立的高性能存储对接,而且这里并不能获得更多的容器化带来的优势。因为基本上 OLAP 都是多节点共同完成一个任务,基本上无法通过分布计算能力单元来提升并行处理能力。因此这部分不太适应容器化。

收起
软件开发 · 2020-04-02
浏览1544
hufeng719hufeng719联盟成员系统工程师某钢铁企业
底层的多副本模式难道不是为了提高数据的安全性吗?还能提高数据库性能?我不太了解这方面。显示全部

底层的多副本模式难道不是为了提高数据的安全性吗?还能提高数据库性能?我不太了解这方面。

收起
能源采矿 · 2020-04-02
浏览1451

提问者

小人书黑
数据库管理员河南联通
擅长领域: 云计算数据库腾讯云

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2020-04-01
  • 关注会员:4 人
  • 问题浏览:2754
  • 最近回答:2020-04-05
  • X社区推广