GPU池化能力如何以及实现方案？

GPU计算能力的池化一直都是难点也是需要必备的能力，另外实际任务训练时，特别在联邦学习场景下，如果可以实现GPU对于云原生场景下的多方建模性能的提升，那还是很有前景的。不知道该产品GPU池化能力如何以及实现方案？

参与8

3同行回答
全部行业
全部行业 硬件生产 互联网服务 银行
|
按赞同排序
按时间排序

Monica WangNVIDIA AI Enterprise 产品经理 NVIDIA英伟达

通过使用NVAIE软件套件中的GPU Operator 来实现GPU池化能力。NVAIE也已在Redhat Openshift, VMware Tanzu,以及K8S 平台做了认证。客户可以通过购买NVAIE软件获得专业服务指导如何配置GPU池化方案。

硬件生产 · 2022-04-28

云计算架构师某银行

传统机器学习一般使用的是32-bit的基本运算，这些基本运算一般都有芯片指令的直接支持，而联邦学习中的Paillier/RSA算法依赖的是1024或2048-bit 甚至更长的大整数运算，且这些运算是模幂、模乘等复杂运算。
使用GPU可以有效地加速联邦学习计算。具体原因有四种：
（A）联邦学习中的数据加解密及密态计算，不同数据的计算其实并不存在很大的关联性，这些计算是高度并行的，由GPU负载加速高度并行的任务。
```
 （B）联邦学习很多计算公式其实本身并不复杂，但重复执行次数巨大。GPU适合加速此重复的轻量级计算。
```
（C）联邦学习是计算密集型的任务，数据IO较少，GPU适合加速此种计算密集型任务。
（D）联邦学习里训练模型的数据通常是以批量形式的产生为主，符合大数据的特征，GPU是满足海量数据的批量计算的需求。

构建满足联邦学习训练任务的GPU池化能力时，需要注意优化网络，譬如可优化的措施包括：
（A）通过RDMA网络技术优化GPU资源池中两节点间通信，
（B）通过动态参数聚合模型优化多节点间通信。
（C）通过引入英伟达的GPU-Direct-RDMA 技术，实现GPU和RDMA网卡之间的直接数据拷贝，可以将通信吞吐量从20G提升到100G，传输延迟降低了百倍。
相比使用CPU ，使用GPU资源池化能力加速联邦学习，在实际案例中，对于联邦学习的比较复杂的同态加密和解密，可以得到5+倍的加速比。对于联邦学习中计算相对简单的密态乘法和密态加法，可以分别得到30+倍以上和百倍的加速比。
业界使用NVIDIA Tesla V100 GPU池化加速的联邦学习平台方案，可以参考星云隐私计算解决方案：https://www.clustarai.com/