关于大模型时代的企业GPU算力资源规划探讨?

在大模型的发展浪潮下,企业用户普遍面临一个两难的抉择:积极扩张GPU算力资源以满足大模型训练需求;保守扩张GPU算力资源以减少GPU闲置数量。由于当前GPU算力的建设存在采购高、运行成本高、维护难度高的三高问题,同时大模型训练又是大型企业用户在实现大模型场景应用时绕不开...显示全部

在大模型的发展浪潮下,企业用户普遍面临一个两难的抉择:积极扩张GPU算力资源以满足大模型训练需求;保守扩张GPU算力资源以减少GPU闲置数量。由于当前GPU算力的建设存在采购高、运行成本高、维护难度高的三高问题,同时大模型训练又是大型企业用户在实现大模型场景应用时绕不开的一个重要环节,这时候企业在如何构建满足大模型训推需求的算力中心时,如何最合理的分配有限的资源,既能满足必要的模型训练要求,又最大程度减少GPU算力闲置的情况发生。

收起
参与14

查看其它 2 个回答罗文江的回答

罗文江罗文江课题专家组云计算架构师某银行

1、企业建设满足大模型训推需求的算力中心,宜采用GPU上云的策略,在统一的私有云平台上,基础设施层建设训练集群和推理集群,在AI平台层建设统一的算力调度平台,实现训推一体化。

2、在训练、推理工作负载上,根据负载的不同特征,采用不同的资源池建设策略。
   训练资源池:集群的建设成本和运维成本很高,基础设施领域需要高端训练GPU卡、高性能存储和高性能RDMA网络,宜在企业统一建设一个训练集群,供企业共享使用。
推理资源池:集群宜考虑成本、高可用部署需求和应用的易集成度等因素,建设时宜采用成本可控的推理卡、云平台底座支持多AZ部署、一键式部署大模型推理服务和可观测GPU的利用率等方法。

3、加强GPU的运营效能。
    以应用场景化进行运营:实现AI大模型应用的准入和退出机制。

对训练需求进行分类,单机多卡、多机多卡所需的GPU不同,可以错峰使用。
银行 · 2024-02-11
浏览318

回答者

罗文江
云计算架构师某银行
擅长领域: 云计算容器容器云

罗文江 最近回答过的问题

回答状态

  • 发布时间:2024-02-11
  • 关注会员:4 人
  • 回答浏览:318
  • X社区推广