关于gpu的使用
目前Kubernetes对于GPU这类扩展资源的定义仅仅支持整数粒度的加加减减,无法支持复杂资源的分配
通过使用阿里开源的GPU Share Scheduler Extender,可以实现基于显存粒度的gpu调度 aliyun.com/gpu-mem,
但是通过测试发现,如果没有指定使用的GPU,默认使用第一个Gpu,切无法切换至第二个GPU使用
即使启动多个POD 相关显存资源也均从第一个gpu中获取,如果显存不够用则POD启动报错 out of mem.
目前这个问题暂时无法解决,请问社区大佬有相关的解决方式吗?
我尝试着配置环境变量CUDA_VISIBLE_DEVICES=0,1 NVIDIA_VISIBLE_DEVICES=0,1 均无法调度到第二个GPU