平台对硬件、基础系统软件、AI框架、AI应用、预训练模型和软件开发工具包提供兼容性和适配性保障。平台为各租户的资源保障强隔离的安全性和稳定运行的可靠性。
NVAIE软件套件基于Redhat Openshift, VMware Vsphere 7.02+, 上游Kubernets 平台都已经过认证和测试。客户选用NVIDIA 开源AI软件是未经过测试的。
收起在容器云环境中建设和优化GPU资源池时,平台的兼容性和可靠性是非常重要的。下面是保证平台兼容性和可靠性的一些关键措施:
总结起来,保证容器云环境中GPU资源池的兼容性和可靠性需要综合考虑硬件和软件的兼容性、资源管理和调度、冗余和故障恢复机制,并进行充分的测试和验证。这样可以确保GPU资源池在生产环境中稳定运行,并提供可靠的GPU计算能力。
收起另外,也可以评估国内趋动科技的Orion X产品:https://virtaitech.com/, 譬如: OrionX-CS-2.8.2 + OrionX-Controller-2.5.0 版本的兼容性列表如下:
操作系统
o 64 位 CentOS 7.X
o 64 位 Ubuntu 18.04 LTS 、 16.04 LTS 、 14.04 LTS
云平台
o 容器环境: Docker1.13 及以后版本
o Kubernetes 环境: Kubernetes 1.10 及以后版本
o KVM 环境: QEMU-KVM(QEMU 2.x)
深度学习框架
o TensorFlow 1.8-2.4.1
o PyTorch 1.0-1.8
o PaddlePaddle 1.5-1.6 , 2.0-2.1
o MXNet 1.4.1
o Xgboost 0.72 、 0.8 、 0.9
o Deepsheech V1.1 、 V1.3 、 V2.0
o NVCaffe 1.0
o TensorRT 5 、 6 、 7