软件开发大数据容器

大数据组件容器化如何保证存储同步的可靠性？

假设大数据分析平台涵盖了大数据平台组件，将大数据平台组件容器化，其中涉及到存储服务的容器化。而且大数据组件例如hdfs的3副本，如何保证容器化后存储同步的可靠性，尽可能的满足副本同步的实效性？是否需要借助外部组件来保证，还是仅仅靠平台自身的同步机制？

收起

关注3

参与11

查看其它 1 个回答zhuqibs的回答

zhuqibs软件开发工程师Adidas

这个问题真的好难
（1）大数据组件很少能够容器化，不说k8s，连docker化也是九牛二虎之力，意义不大；原因
a、大数据应用比较大，曾经搞了一个组件的镜像，个头2个g，但容器适合于放小个头的应用；
b、网络复杂，曾经一个Kubernetes中的大数据组件容器要对接spark，对spark网络不通，花了好大力气，才从google查到spark最新版有transfer ip可以设置；

（2）其次，我没有明白，存储为什么要同步，大数据经典的是hdfs，分布式存储，多副本的，那一定是多少副本写入即是成功，比如3副本，有2个写入就算成功，最后1个随便，返回成功后，系统自己可以慢慢去写。就算这样，效率也是不高的。但是，何来存储同步的可靠性一说？

互联网服务 · 2020-04-01

查看赞同的人

大数据组件容器化如何保证存储同步的可靠性？

查看其它 1 个回答zhuqibs的回答

回答者

zhuqibs 最近回答过的问题

回答状态