GPU资源池化加速AI工作负载方向上,是怎么解决切分、跨节点资源聚合与调用问题的呢?

参与7

2同行回答

Monica WangMonica WangNVIDIA AI Enterprise 产品经理 NVIDIA英伟达
使用GPU Operator。它使基础架构团队能够在集群级别与 Kubernetes 一起使用时管理 GPU 的生命周期。 因此,无需单独管理每个节点。以前,基础架构团队必须管理两个操作系统镜像,一个用于 GPU 节点,一个用于 CPU 节点。 使用 GPU Operator 时,基础架构团队也可以将 CPU 映像与 ...显示全部

使用GPU Operator。它使基础架构团队能够在集群级别与 Kubernetes 一起使用时管理 GPU 的生命周期。 因此,无需单独管理每个节点。

以前,基础架构团队必须管理两个操作系统镜像,一个用于 GPU 节点,一个用于 CPU 节点。 使用 GPU Operator 时,基础架构团队也可以将 CPU 映像与 GPU 工作节点一起使用。

GPU Operator 允许客户在不可变操作系统上运行 GPU 加速应用程序。 我们看到像 Red Hat 这样的公司定位 RHCOS,这是一个与 OpenShift 一起使用的不可变操作系统。

GPU Operator支持更快的节点配置,因为 GPU Operator 的构建方式是检测新添加的 GPU 加速 Kubernetes 工作节点到集群,然后自动安装运行 GPU 加速应用程序所需的所有软件组件。

收起
硬件生产 · 2022-04-28
浏览955
罗文江罗文江课题专家组云计算架构师某银行
1、这涉及到GPU资源池化的一虚多和多虚一的技术。2、一虚多是将一张物理GPU卡虚拟化出多张VGPU卡,增加AI工作负载的处理并行度。3、多虚一是指多张GPU卡或多台GPU物理服务器的算力建设成统一的资源池,支撑AI工作负载的运行。4、例子1:趋动科技OrionX猎户座产品,部署在多台不...显示全部

1、这涉及到GPU资源池化的一虚多和多虚一的技术。
2、一虚多是将一张物理GPU卡虚拟化出多张VGPU卡,增加AI工作负载的处理并行度。
3、多虚一是指多张GPU卡或多台GPU物理服务器的算力建设成统一的资源池,支撑AI工作负载的运行。
4、例子1:趋动科技OrionX猎户座产品,部署在多台不同类型的GPU服务器上,通过网络互联,构建了一个统一的GPU资源池化层,可以实现了GPU资源的统一调度、灵活分配、弹性伸缩能力。
5、例子2:  NVIDIA AI Enterprise则更进一步,整合了从基础设施到AI框架、工具,为应用开发者提供部署AI负载的统一平台。

收起
银行 · 2022-04-27
浏览903

提问者

closer
容器云兴业数金
擅长领域: GPU服务器虚拟化

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2022-04-26
  • 关注会员:3 人
  • 问题浏览:1669
  • 最近回答:2022-04-28
  • X社区推广