checkpoint
checkpoint
该主题还没有描述

热点

大语言模型·2024-02-07
Eric雪飞 · 上海市计算机学会 擅长领域:存储, 灾备, 分布式架构
78 会员关注
大模型通常使用分布式架构搭建系统来进行训练,而分布式架构在设计时就已经把意想不到的各种故障当做寻常事件,并且要建立有效应对机制,Checkpoint断点也是其中一种。checkpoint机制我认为可以类比为快照,它定期保存某些个时间点的完整模型状态的数据,形成如果发生故障,我们就可...(more)
浏览776

    描述

    该主题还没有描述
    X社区推广
  • 提问题