参与3

返回Eric雪飞的回答

Eric雪飞存储专委副主任上海市计算机学会

如果按照大模型的学术定义去理解，LLM大语言模型，那么它只是指最新的一种AI技术路线，
从卷积神经网络CNN开始，在AI领域，技术路线已经发展了7代，如下：
CNN –> RNN->LSTM->RNN/LSTM +Attention -> Transformer -LLM

如果是这个定义，那么基础大模型+数据集+GPU集群，再加上工程师去做训练微调，就能打造出一个有特色的生成式AI。数据集的好坏和工程师的调教水平，决定了最后的成果。

如果是用大模型作为生成式AI的昵称，那么基本上生成式AI的培育也和数据集的大小质量高度相关。什么数据训出什么AI，数据集的完整度和本身的质量是很重要的。

大模型的“大”目前可以理解为参数量，最前沿的GPT4使用1.8万亿参数，到目前为止，参数量的边际效用已经递减，130B这种千亿级参数在某些应用中表现也不弱。

两者的关系可以比做学生和课本：不同的大模型像学生，天分有高低；不同的数据集像教材或课本或图书馆，数据的量和质就是书本知识的全面和正经。最终训练成就和两者都有紧密关联

IT其它 · 2023-09-22

大模型和数据集的关系是什么？