GPU共享技术是否已经成熟,如何选型?

基于GPU共享的技术大多产品还处于实验期,好多大厂的相关产品尚未开源,如何选型,如何不被供应商绑定?显示全部

基于GPU共享的技术大多产品还处于实验期,好多大厂的相关产品尚未开源,如何选型,如何不被供应商绑定?

收起
参与6

查看其它 1 个回答Cui Xiaonan的回答

关于GPU高效共享的解决方案,行业有很多的技术实现,大致分成Remote CUDA,CUDA原生实现,GPU硬件实现。 1. R-CUDA的方案,也叫远程CUDA和CUDA劫持,是一种基于驱动或CUDA句柄的拦截和转发机制,英伟达官方并不支持这样的做法,尤其在跨服务器请求转发方面,其性能和效果对于网络和处理延时依赖较大,对于实时性的业务场景效果并不理想,同时随着GPU驱动的升级,对于其支持的周期风险很大。 2. CUDA原生实现,主要指英伟达的vGPU全切分方案,通过定制的GPU驱动,实现GPU的时分切分,基于时间片轮训机制,实现GPU显存最小粒度的切分,该方案是英伟达的原生技术实现,需要相应的License和技术支持服务。 3. GPU硬件切分技术-MIG方案,只要在A100和A30的GPU上提供,未来的H100也会支持,实现机制是通过GPU内部相应计算单元和显存单元的动态划分,实现硬件的空间切片,彼此的隔离性达到最佳,对于上层系统相对透明,且提供灵活的配置,该技术仅在A100和A30 GPU支持,不需要软件License。

关于选择,也很简单,应为英伟达会最了解底层GPU的设计和使用,跟着英伟达的技术路线是最稳妥的方式,建议优先考虑MIG或vGPU方案

建议关注NVIDIA AI Enterprise软件套件,包含GPU切分和管理的全部软件功能,并且提供企业级的支持服务。

互联网服务 · 2022-04-28
浏览700

回答者

Cui Xiaonan 最近回答过的问题

回答状态

  • 发布时间:2022-04-28
  • 关注会员:3 人
  • 回答浏览:700
  • X社区推广