在容器云环境建设和优化GPU资源池的过程?

在容器云环境建设和优化GPU资源池的过程,对于不同的行业,尤其是金融证券类公司,可管理性和可靠性是必须的,还有就是可持续性,这一点对于公司来讲,无论从使用和运维来讲,是不可缺失的。

参与5

2同行回答

罗文江罗文江课题专家组云计算架构师某银行
 针对单位的应用负载特性,首先做好容器云环境建设和优化GPU资源池的架构规划设计,譬如K8S网络设计、容器存储的设计、和单位现有运维体系的工具对接、和研发体系的工具对接。容器云的GPU管理平台的产品选型,包括GPU虚拟化技术的选型,尽量选择成熟稳定的商用软件,譬如 NVIDIA ...显示全部
  1.  针对单位的应用负载特性,首先做好容器云环境建设和优化GPU资源池的架构规划设计,譬如K8S网络设计、容器存储的设计、和单位现有运维体系的工具对接、和研发体系的工具对接。
  2. 容器云的GPU管理平台的产品选型,包括GPU虚拟化技术的选型,尽量选择成熟稳定的商用软件,譬如 NVIDIA AI Enterprise 。
  3. 如果只是新增纳管GPU资源而对现有的容器云环境进行扩容的话,则可以选择国内初创公司趋动科技的商用软件:猎户座 OrionX GPU 资源调度器产品。如果单位有容器云的研发团队,也可以选择开源的GPU虚拟化项目来实现 新增纳管GPU资源 ,譬如使用腾讯开源的vGPU项目。
收起
银行 · 2022-05-01
浏览541
可管理性,可靠性和可持续性都是在容器平台比较挑战的问题。可管理性涉及GPU资源的优化与高效的调度,建议参考NVAIE,即英伟达AI企业套件,包括了对于GPU资源池的管理和调度方式,同时对于目前主流的第三方和社区版本K8S都有很好的支持。可靠性除了平台底层能力以为,对于上次应用环...显示全部

可管理性,可靠性和可持续性都是在容器平台比较挑战的问题。

可管理性涉及GPU资源的优化与高效的调度,建议参考NVAIE,即英伟达AI企业套件,包括了对于GPU资源池的管理和调度方式,同时对于目前主流的第三方和社区版本K8S都有很好的支持。

可靠性除了平台底层能力以为,对于上次应用环境也很重要,建议客户可以打通和更多参考使用ngc.nvidia.com提供的经过英伟达优化的软件镜像仓库,对于开发和应用的开发环境均具备很高的可靠性

可持续性体现在与社区的技术路线的跟进,NV很多软件都是开源给开发者去使用的,包括我们的Operator插件除了增加更多GPU的特性,也会与社区K8S一起发展

收起
互联网服务 · 2022-04-28
浏览569

提问者

15305419779zxy
主任山东大正公司
擅长领域: 云计算信创服务器

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2022-04-19
  • 关注会员:3 人
  • 问题浏览:1053
  • 最近回答:2022-05-01
  • X社区推广