银行大数据容器

大数据与容器的融合？

请问业内是否有将大数据平台组件（HADOOP、Kafka等）进行云原生架构部署的案例，有可行性吗？

收起

关注3

参与6

查看其它 1 个回答顾黄亮的回答

顾黄亮

技术总监畅销书作者

目前很多大数据场景都有这样的问题。在很多企业都有过CDH上云的经历，从过往情况来看，有三个难点，一个是大数据组件的融合，其中包括了 gettyimages/docker-spark与big-data-europe的Hadoop、Hive、HBase，其中版本一定要适配。第二个是创建容器的顺序问题，开启的顺序差异将导致容器是否能正常启动，如果启动失败，一般rc也将自动重新创建容器，如果还不行则需要手动删除，rc会自动重构。第三个就是题主所说的大流量场景下的kubernetes的性能和物理机的网卡流量分配问题，下面针对第三点进行展开。
一般来说，针对大流量的场景，一般采用利用亲和性和反亲和性，做pod 定点。比如主流量入口，会有大量的流量进来，那么如果固定在node 节点上，那么根据 kubernetes调度pod 规则，会把这个大流量的pod 漂移到其他node节点上，但是问题很容易，影响这个node节点上的其他pod 容器的网络通信。举个现实遇到的案例，有个服务主入口，那么这个容器只能固定在4个，4核16g 的高性能node 节点上，这样，因为网卡最多就是100m，那么即使是跑满了，也不会影响其他节点上的pod。简单说一下步骤，先获取某个节点的labels，修改labels 在命令行最后加上 --overwrite，编辑app应用的deployment文件，利用筛选器字段，将容器固定制定的node节点，就可以实现这个容器已经被k8s 调度到制定的节点上。

银行 · 2020-07-08

查看赞同的人

大数据与容器的融合？

查看其它 1 个回答顾黄亮的回答

回答者

顾黄亮最近回答过的问题

回答状态

大数据与容器的融合？

查看其它 1 个回答顾黄亮的回答

回答者

顾黄亮 最近回答过的问题

回答状态

顾黄亮最近回答过的问题