背景:上级单位计划半年内投入预算,建设基于H100的智算中心,预计52台,合计416个GPU
已有的思考:这个规模也不算小了,单台服务器满配置功率大概在10kw,以20kw一个机柜(2台)的话,也需要26个机柜
难点所在:就当前建设的智算中心最佳实践,考虑到整个系统的可靠和高效,高性能网络和存储该如何设计?还需要考虑哪些层面的问题?是否有设计文档可供参考或学习?
这篇文章很有帮助,但内容相对比较精简,希望有更丰富的介绍。
如何从零设计大模型基础设施 - Eric雪飞 - twt企业IT交流平台
https://www.talkwithtrend.com/Article/268173
设计并建设一个基于NVIDIA H100 GPU的智算(超算)中心是一项复杂而全面的任务,涉及多个层面的规划和实施。以下是从需求设计到硬件基础设施系统设计的整个落地过程的概述:
由于您需要更详尽的设计文档,可以查看以下资源:
针对建设基于H100的智算中心,需要考虑以下几个方面的问题:
在设计智算中心的基础设施时,可以参考相关的设计文档和最佳实践,如Intel的HPC架构设计指南、OpenStack的架构设计指南等。同时,也可以参考其他类似规模的智算中心的设计经验,如国内的天河系列超级计算机等。