软件开发大数据容器

大数据组件容器化如何保证存储同步的可靠性?

假设大数据分析平台涵盖了大数据平台组件,将大数据平台组件容器化,其中涉及到存储服务的容器化。而且大数据组件例如hdfs的3副本,如何保证容器化后存储同步的可靠性,尽可能的满足副本同步的实效性?是否需要借助外部组件来保证,还是仅仅靠平台自身的同步机制?...显示全部

假设大数据分析平台涵盖了大数据平台组件,将大数据平台组件容器化,其中涉及到存储服务的容器化。而且大数据组件例如hdfs的3副本,如何保证容器化后存储同步的可靠性,尽可能的满足副本同步的实效性?是否需要借助外部组件来保证,还是仅仅靠平台自身的同步机制?

收起
参与11

查看其它 1 个回答zhuqibs的回答

zhuqibszhuqibs软件开发工程师Adidas

这个问题真的好难
(1)大数据组件很少能够容器化,不说k8s,连docker化也是九牛二虎之力,意义不大;原因
   a、大数据应用比较大,曾经搞了一个组件的镜像,个头2个g,但容器适合于放小个头的应用;
b、网络复杂,曾经一个Kubernetes中的大数据组件容器要对接spark,对spark网络不通,花了好大力气,才从google查到spark最新版有transfer ip可以设置;

(2)其次,我没有明白,存储为什么要同步,大数据经典的是hdfs,分布式存储,多副本的,那一定是多少副本写入即是成功,比如3副本,有2个写入就算成功,最后1个随便,返回成功后,系统自己可以慢慢去写。 就算这样,效率也是不高的。但是,何来存储同步的可靠性一说?

互联网服务 · 2020-04-01
浏览1707

回答者

zhuqibs
软件开发工程师Adidas
擅长领域: 云计算服务器存储

zhuqibs 最近回答过的问题

回答状态

  • 发布时间:2020-04-01
  • 关注会员:3 人
  • 回答浏览:1707
  • X社区推广