银行资源隔离 GPU

不同gpu共享方案区别及gpu隔离技术？

在使用GPU计算资源时通常会面临如下几个问题：GPU资源管理困难。GPU资源使用效率低。GPU资源快速申请、回收困难。为了彻底解决上述问题，业界提出了不同GPU共享方案。包括CUDA劫持、CUDA聚合、内核劫持、Mdev框架、Nvidia MIG等，请问这些方案具体有什么优势和劣势以及他们各...显示全部

关注3

参与8

查看其它 1 个回答Cui Xiaonan的回答

Cui XiaonanDevRelNVIDIA英伟达

关于GPU高效共享的解决方案，行业有很多的技术实现，大致分成Remote CUDA，CUDA原生实现，GPU硬件实现。
1. R-CUDA的方案，也叫远程CUDA和CUDA劫持，是一种基于驱动或CUDA句柄的拦截和转发机制，英伟达官方并不支持这样的做法，尤其在跨服务器请求转发方面，其性能和效果对于网络和处理延时依赖较大，对于实时性的业务场景效果并不理想，同时随着GPU驱动的升级，对于其支持的周期风险很大。
2. CUDA原生实现，主要指英伟达的vGPU全切分方案，通过定制的GPU驱动，实现GPU的时分切分，基于时间片轮训机制，实现GPU显存最小粒度的切分，该方案是英伟达的原生技术实现，需要相应的License和技术支持服务。
3. GPU硬件切分技术，只要在A100和A30的GPU上提供，未来的H100也会支持，实现机制是通过GPU内部相应计算单元和显存单元的动态划分，实现硬件的空间切片，彼此的隔离性达到最佳，对于上层系统相对透明，且提供灵活的配置，该技术仅在A100和A30 GPU支持，不需要软件License。

建议关注NVIDIA AI Enterprise软件套件，包含GPU切分和管理的全部软件功能，并且提供企业级的支持服务。

互联网服务 · 2022-04-28

查看赞同的人

不同gpu共享方案区别及gpu隔离技术？

查看其它 1 个回答Cui Xiaonan的回答

回答者

Cui Xiaonan 最近回答过的问题

回答状态