在容器云环境建设和优化GPU资源池的过程,对于不同的行业,尤其是金融证券类公司,可管理性和可靠性是必须的,还有就是可持续性,这一点对于公司来讲,无论从使用和运维来讲,是不可缺失的。
可管理性,可靠性和可持续性都是在容器平台比较挑战的问题。
可管理性涉及GPU资源的优化与高效的调度,建议参考NVAIE,即英伟达AI企业套件,包括了对于GPU资源池的管理和调度方式,同时对于目前主流的第三方和社区版本K8S都有很好的支持。
可靠性除了平台底层能力以为,对于上次应用环境也很重要,建议客户可以打通和更多参考使用ngc.nvidia.com提供的经过英伟达优化的软件镜像仓库,对于开发和应用的开发环境均具备很高的可靠性
可持续性体现在与社区的技术路线的跟进,NV很多软件都是开源给开发者去使用的,包括我们的Operator插件除了增加更多GPU的特性,也会与社区K8S一起发展
收起