银行容器云 GPU GPU资源池

容器环境中GPU资源池中可以多种切分方式并用吗？效果如何？

容器环境中GPU资源池中可以多种切分方式并用吗？效果如何

关注3

参与7

2同行回答
全部行业
全部行业 互联网服务 银行
|
按赞同排序
按时间排序

罗文江

云计算架构师某银行

容器环境中GPU资源池中是不可以同时使用多种切分方式的。每种GPU虚拟化的实现方式不同，且对GPU卡资源的排斥性管理的。效果能够做到一虚十，即粒度到0.1GPU

下面是各种GPU切分（即GPU虚拟化）技术的对比

一. CUDA劫持是属于时间复用方式的GPU虚拟化技术，通过劫持对Cuda driver API的调用来做到资源隔离。共享模块一般位于在Cuda driver API之上。

优势：API开源，是非Nvidia官方技术人员能够较容易实现的共享技术。
劣势：1.CUDA库升级活跃，而当CUDA库升级时，劫持方案也需要不断适配，损耗人力。2.难以涵盖所有场景，隔离不一定准确；3.安全性低，用户可以绕过限制。4.对用户有少量影响，需要一定适配。

二. CUDA聚合：NVIDIA MPS是属于空间复用方式的GPU共享技术，通过将多个任务合并成一个上下文的方式共享GPU算力，所有任务共同使用显存。位于Cuda driver API和Nvidia Driver之间。

优势：性能是所有技术中最好的。在多任务共享的场景下，当任务使用的资源可以同时被满足，其JCT（任务完成时间）基本没有影响。
劣势：1.错误会互相影响，如果一个任务退出（包括被使用者停止和任务本身出错等），如果该任务正在执行kernel，那么和该任务共同share IPC和UVM的任务也会一同出错退出。2.没有显存隔离，可以粗略地限制计算资源。

三. 内核劫持：阿里云 cGPU是属于时间复用方式的GPU容器共享方案，通过新的内核驱动模块，为容器提供了虚拟的GPU设备，劫持了对Nvidia driver的调用。可以严格限制显存，通过时间片的方式限制算力。位于Cuda driver API和Nvidia Driver之间。

优势：1.安全性高；2.共享损耗小；3.Nvidia Driver的更新更少，改动量很小。
劣势：1.cGPU对OS设置有一定依赖；2.因为是内核模块，因此更新换代较困难；3.研发困难，对开发要求高。4.出于算力时间片的设计，对于某些模型，具有一定的性能损失。

四. 虚拟机：Nvidia官方的vGPU属于时间复用方式的共享产品，通过vfio-mdev提供了一个隔离性非常高的的硬件环境，主要面向的是虚拟机产品。其共享模块在Nvidia driver及之下。

优势：来自Nvidia官方，可靠性高，安全性高。
劣势：1.不支持容器，虚拟机在使用上不灵活；2.无法动态调整资源比例。3.有一定的共享损耗。4.无法定制化开发。

收起

银行 · 2022-04-30

Cui XiaonanDevRelNVIDIA英伟达

关于GPU高效共享的解决方案，行业有很多的技术实现，大致分成Remote CUDA，CUDA原生实现，GPU硬件实现。 1. R-CUDA的方案，也叫远程CUDA和CUDA劫持，是一种基于驱动或CUDA句柄的拦截和转发机制，英伟达官方并不支持这样的做法，尤其在跨服务器请求转发方面，其性能和效果对于网络和处理延时依赖较大，对于实时性的业务场景效果并不理想，同时随着GPU驱动的升级，对于其支持的周期风险很大。 2. CUDA原生实现，主要指英伟达的vGPU全切分方案，通过定制的GPU驱动，实现GPU的时分切分，基于时间片轮训机制，实现GPU显存最小粒度的切分，该方案是英伟达的原生技术实现，需要相应的License和技术支持服务。 3. GPU硬件切分技术，只要在A100和A30的GPU上提供，未来的H100也会支持，实现机制是通过GPU内部相应计算单元和显存单元的动态划分，实现硬件的空间切片，彼此的隔离性达到最佳，对于上层系统相对透明，且提供灵活的配置，该技术仅在A100和A30 GPU支持，不需要软件License。

效果，GPU空间切分-MIG技术相对隔离性较好，几乎没有额外性能损耗，vGPU时分切片技术，相对灵活性更好，硬件的限制较小，但是需要额外的软件许可。

建议关注NVIDIA AI Enterprise软件套件，包含GPU切分和管理的全部软件功能，并且提供企业级的支持服务。

收起

互联网服务 · 2022-04-28

查看赞同的人

容器环境中GPU资源池中可以多种切分方式并用吗？效果如何？

2同行回答
全部行业
全部行业 互联网服务 银行
|
按赞同排序
按时间排序

下面是各种GPU切分（即GPU虚拟化）技术的对比

问题来自

相关问题

相关资料

相关文章

问题状态

容器环境中GPU资源池中可以多种切分方式并用吗？效果如何？

2同行回答全部行业全部行业互联网服务银行|按赞同排序按时间排序

下面是各种GPU切分（即GPU虚拟化）技术的对比

问题来自

相关问题

相关资料

相关文章

问题状态

2同行回答
全部行业
全部行业互联网服务银行
|
按赞同排序
按时间排序