假设大数据分析平台涵盖了大数据平台组件,将大数据平台组件容器化,其中涉及到存储服务的容器化。而且大数据组件例如hdfs的3副本,如何保证容器化后存储同步的可靠性,尽可能的满足副本同步的实效性?是否需要借助外部组件来保证,还是仅仅靠平台自身的同步机制?
收起这个问题真的好难
(1)大数据组件很少能够容器化,不说k8s,连docker化也是九牛二虎之力,意义不大;原因
a、大数据应用比较大,曾经搞了一个组件的镜像,个头2个g,但容器适合于放小个头的应用;
b、网络复杂,曾经一个Kubernetes中的大数据组件容器要对接spark,对spark网络不通,花了好大力气,才从google查到spark最新版有transfer ip可以设置;
(2)其次,我没有明白,存储为什么要同步,大数据经典的是hdfs,分布式存储,多副本的,那一定是多少副本写入即是成功,比如3副本,有2个写入就算成功,最后1个随便,返回成功后,系统自己可以慢慢去写。 就算这样,效率也是不高的。但是,何来存储同步的可靠性一说?