对包含cpu、gpu节点的混合集群 ,架构设计上,架构设计上要做好规划,譬如节点资源标签出GPU节点、CPU节点。 在应用部署时,提供资源选择,以便K8S根据资源标签将应用调度到相应的节点。 针对要承载的应用特点,对容器集群的存储方案进行相应的设计等。
收起可以通过NVAIE中GPU Operator 组件来实现。
GPU Operator使基础架构团队能够在集群级别与 Kubernetes 一起使用时管理 GPU 的生命周期。 因此,无需单独管理每个节点。
以前,基础架构团队必须管理两个操作系统镜像,一个用于 GPU 节点,一个用于 CPU 节点。 使用 GPU Operator 时,基础架构团队也可以将 CPU 映像与 GPU 工作节点一起使用。
GPU Operator允许客户在不可变操作系统上运行 GPU 加速应用程序。 我们看到像 Red Hat 这样的公司定位 RHCOS,这是一个与 OpenShift 一起使用的不可变操作系统。
它支持更快的节点配置,因为 GPU Operator 的构建方式是检测新添加的 GPU 加速 Kubernetes 工作节点到集群,然后自动安装运行 GPU 加速应用程序所需的所有软件组件。
收起