在容器云环境建设和优化GPU资源池的过程中,平台的兼容性和可靠性如何保证?

平台对硬件、基础系统软件、AI框架、AI应用、预训练模型和软件开发工具包提供兼容性和适配性保障。平台为各租户的资源保障强隔离的安全性和稳定运行的可靠性。显示全部

平台对硬件、基础系统软件、AI框架、AI应用、预训练模型和软件开发工具包提供兼容性和适配性保障。平台为各租户的资源保障强隔离的安全性和稳定运行的可靠性。

收起
参与10

查看其它 2 个回答罗文江的回答

罗文江罗文江课题专家组云计算架构师某银行
  1. 容器云的GPU资源管理平台,通常聚焦在对GPU硬件、基础系统软件 OS、AI框架的兼容性和适配性保障。   而 AI应用、预训练模型和软件开发工具包的兼容性和适配性保障,则是和AI框架强相关。
  2. 容器云的GPU资源池中,租户的资源保障强隔离的安全性是由容器云平台的租户模型实现的,譬如以K8S的NAMESPACE做隔离。 稳定运行的可靠性则和采用的GPU虚拟化技术相关。因此,尽量采用商用软件,或者单位有较强的研发团队,也可以集成使用开源的GPU虚拟化项目。
  3. 商务软件方面:可以评估NVIDA的AI企业版套件:https://www.nvidia.cn/data-center/products/ai-enterprise/,  对NVIDIA全系列的GPU硬件,基础系统软件VMWARE、K8S、OS上都有 兼容性和适配性保障。

另外,也可以评估国内趋动科技的Orion X产品:https://virtaitech.com/,  譬如: OrionX-CS-2.8.2 + OrionX-Controller-2.5.0 版本的兼容性列表如下:

  •  网络
  • o TCP/IP 以太网络
  • o RDMA 网络( InfiniBand 和 RoCE )
  •  NVIDIA GPU
  • o Ampere 架构: A100,A10,A30,A40
  • o Turing 架构: T4,RTX8000,RTX6000,RTX5000
  • o Volta 架构: V100s, V100
  • o Pascal 架构: P100,P40,P4
  • o Maxwell 架构: M60,M40
  • o Kepler 架构: K80,K40
  •  NVIDIA CUDA
  • o CUDA 11.0, 11.1, 11.2, 11.3, 11.4
  • o CUDA 10.0, 10.1, 10.2
  • o CUDA 9.0, 9.1, 9.2

 操作系统
o 64 位 CentOS 7.X
o 64 位 Ubuntu 18.04 LTS 、 16.04 LTS 、 14.04 LTS

 云平台
o 容器环境: Docker1.13 及以后版本
o Kubernetes 环境: Kubernetes 1.10 及以后版本
o KVM 环境: QEMU-KVM(QEMU 2.x)

 深度学习框架
o TensorFlow 1.8-2.4.1
o PyTorch 1.0-1.8
o PaddlePaddle 1.5-1.6 , 2.0-2.1
o MXNet 1.4.1
o Xgboost 0.72 、 0.8 、 0.9
o Deepsheech V1.1 、 V1.3 、 V2.0
o NVCaffe 1.0
o TensorRT 5 、 6 、 7

银行 · 2022-05-02
浏览1004

回答者

罗文江
云计算架构师某银行
擅长领域: 云计算容器容器云

罗文江 最近回答过的问题

回答状态

  • 发布时间:2022-05-02
  • 关注会员:4 人
  • 回答浏览:1004
  • X社区推广