大模型微调过程中如何避免灾难性遗忘？

微调后大模型容易出现灾难性遗忘，导致其他能力下降。使用什么数据和技术组合，能提升特定任务的同时，不造成其他能力丧失，对企业处理多业务功能需求有很大意义。

参与30

查看其它 8 个回答朱祥磊的回答

朱祥磊系统架构师某移动公司

在微调大模型时。为了避免灾难性遗忘，有几种策略可以考虑：
1.       使用所有已知数据重新训练：简单而有效的方法，但重新训练模型可能需要大量的时间和计算资源。
2.      增量学习：增量学习是一种策略，它试图在有限的计算和存储资源下平衡稳定性和可塑性。其目标是在新任务上逐渐适应现有模型，同时保留以前学习的知识。
3.      知识蒸馏：这是一种训练更小、更快速、更轻量的模型的技术，同时从大模型中获取知识。
4.      使用冻结部分权重：这种方法通过只更新部分网络权重来防止灾难性遗忘。例如，LoRA是一种权重冻结的方法，只学习部分网络权重。
5.      使用动态网络：这种方法允许模型在某些任务上改变其结构或参数，以适应新的任务。
6.      集成学习：集成方法通过结合多个模型来提高预测的稳定性和准确性。这种方法也可以帮助防止灾难性遗忘，因为它允许模型在新任务上适应现有模型，同时保持以前学习的知识。
7.      基于外挂知识库：避免大量微调。

以上策略可以单独或结合使用，以防止灾难性遗忘。具体使用哪种策略取决于具体的应用场景和需求。

电信运营商 · 2024-01-18

查看赞同的人

大模型微调过程中如何避免灾难性遗忘？

查看其它 8 个回答朱祥磊的回答

回答者

朱祥磊最近回答过的问题

回答状态

大模型微调过程中如何避免灾难性遗忘？

查看其它 8 个回答朱祥磊的回答

回答者

朱祥磊 最近回答过的问题

回答状态

朱祥磊最近回答过的问题