在容器云环境建设和优化GPU资源池的过程?

在容器云环境建设和优化GPU资源池的过程,对于不同的行业,尤其是金融证券类公司,可管理性和可靠性是必须的,还有就是可持续性,这一点对于公司来讲,无论从使用和运维来讲,是不可缺失的。...显示全部

在容器云环境建设和优化GPU资源池的过程,对于不同的行业,尤其是金融证券类公司,可管理性和可靠性是必须的,还有就是可持续性,这一点对于公司来讲,无论从使用和运维来讲,是不可缺失的。

收起
参与5

查看其它 1 个回答Cui Xiaonan的回答

可管理性,可靠性和可持续性都是在容器平台比较挑战的问题。

可管理性涉及GPU资源的优化与高效的调度,建议参考NVAIE,即英伟达AI企业套件,包括了对于GPU资源池的管理和调度方式,同时对于目前主流的第三方和社区版本K8S都有很好的支持。

可靠性除了平台底层能力以为,对于上次应用环境也很重要,建议客户可以打通和更多参考使用ngc.nvidia.com提供的经过英伟达优化的软件镜像仓库,对于开发和应用的开发环境均具备很高的可靠性

可持续性体现在与社区的技术路线的跟进,NV很多软件都是开源给开发者去使用的,包括我们的Operator插件除了增加更多GPU的特性,也会与社区K8S一起发展

互联网服务 · 2022-04-28
浏览573

回答者

Cui Xiaonan 最近回答过的问题

回答状态

  • 发布时间:2022-04-28
  • 关注会员:3 人
  • 回答浏览:573
  • X社区推广