对于搭建包含cpu、gpu节点的混合集群,架构设计上有什么值得注意的点?

对于搭建包含cpu、gpu节点的混合集群时,架构设计上有什么值得注意的点?

参与6

2同行回答

Monica WangMonica WangNVIDIA AI Enterprise 产品经理 NVIDIA英伟达
可以通过NVAIE中GPU Operator 组件来实现。GPU Operator使基础架构团队能够在集群级别与 Kubernetes 一起使用时管理 GPU 的生命周期。 因此,无需单独管理每个节点。以前,基础架构团队必须管理两个操作系统镜像,一个用于 GPU 节点,一个用于 CPU 节点。 使用 GPU Operator ...显示全部

可以通过NVAIE中GPU Operator 组件来实现。
GPU Operator使基础架构团队能够在集群级别与 Kubernetes 一起使用时管理 GPU 的生命周期。 因此,无需单独管理每个节点。

以前,基础架构团队必须管理两个操作系统镜像,一个用于 GPU 节点,一个用于 CPU 节点。 使用 GPU Operator 时,基础架构团队也可以将 CPU 映像与 GPU 工作节点一起使用。

GPU Operator允许客户在不可变操作系统上运行 GPU 加速应用程序。 我们看到像 Red Hat 这样的公司定位 RHCOS,这是一个与 OpenShift 一起使用的不可变操作系统。

它支持更快的节点配置,因为 GPU Operator 的构建方式是检测新添加的 GPU 加速 Kubernetes 工作节点到集群,然后自动安装运行 GPU 加速应用程序所需的所有软件组件。

收起
硬件生产 · 2022-04-28
浏览763

提问者

jiangxiaobin
研发工程师某银行
擅长领域: 服务器GPU

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2022-04-25
  • 关注会员:3 人
  • 问题浏览:1342
  • 最近回答:2022-04-30
  • X社区推广