如何构建可扩展且高可用的基础设施,以满足大模型的计算和实时推理需求?

大模型的训练和推理需要强大的计算资源和高性能的基础设施。金融行业可能需要投资于强大的服务器、存储系统和网络基础设施,以满足大模型的计算需求。此外,还需要考虑到可扩展性和高可用性,以支持模型的训练和实时推理。如何构建可扩展且高可用的基础设施,以满足大模型的计算...显示全部

大模型的训练和推理需要强大的计算资源和高性能的基础设施。金融行业可能需要投资于强大的服务器、存储系统和网络基础设施,以满足大模型的计算需求。此外,还需要考虑到可扩展性和高可用性,以支持模型的训练和实时推理。
如何构建可扩展且高可用的基础设施,以满足大模型的计算和实时推理需求?

收起
参与6

查看其它 1 个回答罗文江的回答

罗文江罗文江课题专家组云计算架构师某银行

1、技术路线上,建议在私有云平台构建AI大模型基础设施。
2、在训练、推理工作负载上,根据负载的不同特征,采用不同的建设策略。譬如训练集群的建设成本和运维成本很高,基础设施领域需要高端训练GPU卡、高性能存储和高性能RDMA网络,宜在企业统一建设一个训练集群,供企业共享使用。另外,推理集群,宜考虑成本、高可用部署需求和应用的易集成度等因素,建设时宜采用成本可控的推理卡、云平台底座支持多AZ部署、一键式部署大模型推理服务和可观测GPU的利用率等方法。

银行 · 2024-02-11
浏览266

回答者

罗文江
云计算架构师某银行
擅长领域: 云计算容器容器云

罗文江 最近回答过的问题

回答状态

  • 发布时间:2024-02-11
  • 关注会员:3 人
  • 回答浏览:266
  • X社区推广