大数据与容器的融合?

请问业内是否有将大数据平台组件(HADOOP、Kafka等)进行云原生架构部署的案例,有可行性吗?

参与6

2同行回答

顾黄亮顾黄亮课题专家组技术总监畅销书作者
目前很多大数据场景都有这样的问题。在很多企业都有过CDH上云的经历,从过往情况来看,有三个难点,一个是大数据组件的融合,其中包括了 gettyimages/docker-spark与big-data-europe的Hadoop、Hive、HBase,其中版本一定要适配。第二个是创建容器的顺序问题,开启的顺序差异将导致容...显示全部

目前很多大数据场景都有这样的问题。在很多企业都有过CDH上云的经历,从过往情况来看,有三个难点,一个是大数据组件的融合,其中包括了 gettyimages/docker-spark与big-data-europe的Hadoop、Hive、HBase,其中版本一定要适配。第二个是创建容器的顺序问题,开启的顺序差异将导致容器是否能正常启动,如果启动失败,一般rc也将自动重新创建容器,如果还不行则需要手动删除,rc会自动重构。第三个就是题主所说的大流量场景下的kubernetes的性能和物理机的网卡流量分配问题,下面针对第三点进行展开。
一般来说,针对大流量的场景,一般采用利用亲和性和反亲和性,做pod 定点。 比如主流量入口,会有大量的流量进来,那么如果固定在node 节点上,那么根据 kubernetes调度pod 规则,会把这个大流量的pod 漂移到其他node节点上,但是问题很容易,影响这个node节点上的其他pod 容器的网络通信。举个现实遇到的案例, 有个服务主入口,那么这个容器只能固定在4个,4核16g 的高性能node 节点上,这样,因为网卡最多就是100m,那么即使是跑满了,也不会影响其他节点上的pod。简单说一下步骤,先 获取某个节点的labels, 修改labels 在命令行最后加上 --overwrite, 编辑app应用的deployment文件,利用筛选器字段,将容器固定制定的node节点,就可以实现 这个容器已经被k8s 调度到制定的节点上。

收起
银行 · 2020-07-08
浏览1581
nexposenexpose其它阳光信保
业内其实已经有很多利用K8S部署大数据基础组件的场景了,其中很重要的部分是如何发挥出K8S  Scheduler 的威力,充分利用其进行资源调度管理,来代替YARN,很多组件新的版本已经直接对K8S进行支持了,如:Spark,Flink 等。其他Kakfka,Zk 就更简单。 另外一个方面是这些基础组件对存...显示全部

业内其实已经有很多利用K8S部署大数据基础组件的场景了,其中很重要的部分是如何发挥出K8S  Scheduler 的威力,充分利用其进行资源调度管理,来代替YARN,很多组件新的版本已经直接对K8S进行支持了,如:Spark,Flink 等。其他Kakfka,Zk 就更简单。
另外一个方面是这些基础组件对存储的要求比较高,如果需要挂在多块磁盘,可以考虑 结合Host模式和Local PV 模式结合的方式来适用于不同的场景。

收起
保险 · 2020-07-10
浏览1328

提问者

胡子龙
系统规划管理长沙银行
擅长领域: 云计算容器数据中心

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2020-07-07
  • 关注会员:3 人
  • 问题浏览:2943
  • 最近回答:2020-07-10
  • X社区推广