在容器云环境建设和优化GPU资源池的过程中,平台的兼容性和可靠性如何保证?

平台对硬件、基础系统软件、AI框架、AI应用、预训练模型和软件开发工具包提供兼容性和适配性保障。平台为各租户的资源保障强隔离的安全性和稳定运行的可靠性。

参与10

3同行回答

Monica WangMonica WangNVIDIA AI Enterprise 产品经理 NVIDIA英伟达
NVAIE软件套件基于Redhat Openshift, VMware Vsphere 7.02+, 上游Kubernets 平台都已经过认证和测试。客户选用NVIDIA 开源AI软件是未经过测试的。显示全部

NVAIE软件套件基于Redhat Openshift, VMware Vsphere 7.02+, 上游Kubernets 平台都已经过认证和测试。客户选用NVIDIA 开源AI软件是未经过测试的。

收起
硬件生产 · 2022-04-28
浏览965
wenwen123wenwen123项目经理MM
在容器云环境中建设和优化GPU资源池时,平台的兼容性和可靠性是非常重要的。下面是保证平台兼容性和可靠性的一些关键措施:GPU驱动和容器运行时的兼容性:确保所选的GPU驱动版本与容器运行时(如Docker、Kubernetes)兼容。这可以通过仔细选择和测试GPU驱动版本,以及与容器运行时进...显示全部

在容器云环境中建设和优化GPU资源池时,平台的兼容性和可靠性是非常重要的。下面是保证平台兼容性和可靠性的一些关键措施:

  1. GPU驱动和容器运行时的兼容性:确保所选的GPU驱动版本与容器运行时(如Docker、Kubernetes)兼容。这可以通过仔细选择和测试GPU驱动版本,以及与容器运行时进行充分的集成和验证来实现。
  2. 容器镜像的兼容性:在构建容器镜像时,需要确保容器内的软件和库与所选GPU驱动和硬件兼容。这可以通过使用适当的基础镜像和在镜像中正确安装和配置GPU驱动和相关组件来实现。
  3. GPU资源管理和调度:在容器云平台中,确保GPU资源的合理管理和调度是至关重要的。这可以通过使用适当的调度器和资源管理器,如Kubernetes的GPU Device Plugin和Device Manager来实现。这些工具可以确保GPU资源的正确分配和调度,并提供资源隔离和故障恢复的机制。
  4. 可靠性和冗余:在GPU资源池的设计中,考虑冗余和故障恢复机制是重要的。通过使用多个GPU节点和适当的负载均衡策略,可以实现GPU资源的冗余和故障切换。此外,定期进行备份和监控,以及实时响应故障和异常情况,有助于提高平台的可靠性。
  5. 测试和验证:在建设和优化GPU资源池之前,进行全面的测试和验证是必要的。通过模拟真实场景和负载,验证GPU资源的正确配置、性能和稳定性。同时,对关键功能和关注点进行详细的测试,如资源调度、容器迁移、故障恢复等,以确保平台在不同情况下的可靠性和兼容性。

总结起来,保证容器云环境中GPU资源池的兼容性和可靠性需要综合考虑硬件和软件的兼容性、资源管理和调度、冗余和故障恢复机制,并进行充分的测试和验证。这样可以确保GPU资源池在生产环境中稳定运行,并提供可靠的GPU计算能力。

收起
互联网服务 · 2023-07-05
浏览354
罗文江罗文江课题专家组云计算架构师某银行
容器云的GPU资源管理平台,通常聚焦在对GPU硬件、基础系统软件 OS、AI框架的兼容性和适配性保障。   而 AI应用、预训练模型和软件开发工具包的兼容性和适配性保障,则是和AI框架强相关。容器云的GPU资源池中,租户的资源保障强隔离的安全性是由容器云平台的租户模型实现的,...显示全部
  1. 容器云的GPU资源管理平台,通常聚焦在对GPU硬件、基础系统软件 OS、AI框架的兼容性和适配性保障。   而 AI应用、预训练模型和软件开发工具包的兼容性和适配性保障,则是和AI框架强相关。
  2. 容器云的GPU资源池中,租户的资源保障强隔离的安全性是由容器云平台的租户模型实现的,譬如以K8S的NAMESPACE做隔离。 稳定运行的可靠性则和采用的GPU虚拟化技术相关。因此,尽量采用商用软件,或者单位有较强的研发团队,也可以集成使用开源的GPU虚拟化项目。
  3. 商务软件方面:可以评估NVIDA的AI企业版套件:https://www.nvidia.cn/data-center/products/ai-enterprise/,  对NVIDIA全系列的GPU硬件,基础系统软件VMWARE、K8S、OS上都有 兼容性和适配性保障。

另外,也可以评估国内趋动科技的Orion X产品:https://virtaitech.com/,  譬如: OrionX-CS-2.8.2 + OrionX-Controller-2.5.0 版本的兼容性列表如下:

  •  网络
  • o TCP/IP 以太网络
  • o RDMA 网络( InfiniBand 和 RoCE )
  •  NVIDIA GPU
  • o Ampere 架构: A100,A10,A30,A40
  • o Turing 架构: T4,RTX8000,RTX6000,RTX5000
  • o Volta 架构: V100s, V100
  • o Pascal 架构: P100,P40,P4
  • o Maxwell 架构: M60,M40
  • o Kepler 架构: K80,K40
  •  NVIDIA CUDA
  • o CUDA 11.0, 11.1, 11.2, 11.3, 11.4
  • o CUDA 10.0, 10.1, 10.2
  • o CUDA 9.0, 9.1, 9.2

 操作系统
o 64 位 CentOS 7.X
o 64 位 Ubuntu 18.04 LTS 、 16.04 LTS 、 14.04 LTS

 云平台
o 容器环境: Docker1.13 及以后版本
o Kubernetes 环境: Kubernetes 1.10 及以后版本
o KVM 环境: QEMU-KVM(QEMU 2.x)

 深度学习框架
o TensorFlow 1.8-2.4.1
o PyTorch 1.0-1.8
o PaddlePaddle 1.5-1.6 , 2.0-2.1
o MXNet 1.4.1
o Xgboost 0.72 、 0.8 、 0.9
o Deepsheech V1.1 、 V1.3 、 V2.0
o NVCaffe 1.0
o TensorRT 5 、 6 、 7

收起
银行 · 2022-05-02
浏览974

提问者

wanggeng
系统运维工程师某银行
擅长领域: 服务器存储数据库

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2022-04-28
  • 关注会员:4 人
  • 问题浏览:1911
  • 最近回答:2023-07-05
  • X社区推广