《迈向YB数据时代》 - 第8期 - 华为存储用户俱乐部

《迈向YB数据时代》第8期本期主题：大模型行业应用

卷首语

一个大语言模型简单理解，由存储参数的文件和运行这些参数的代码两个文件组成的。这些参数是神经网络（即语言模型）的权重或参数。从数学上可以证明，预测与数据压缩之间存在密切联系。简单来说，这种神经网络训练在某种意义上是一种数据压缩，可以被理解为对大量互联网内容的压缩。但这种压缩与zip文件不同，zip文件是无损压缩，而这里是有损压缩。只是大致获取了训练文本的概念，而不是在这些参数中保留了文本的完整副本。

模型推断简单理解，就是生成下一个词，从模型中采样，选择一个词，继续将其反馈进去并得到下一个词，然后继续反馈和重复。可以理解神经网络是基于网页内容进行训练的，让这个神经网络仿佛“梦游”互联网文档，运行神经网络或者说推理，得到类似于在网络上浏览的梦境体验。它不会完全复制训练集中看到的文档，但它会对互联网的信息进行某种程度的压缩和整合，它能够记住整体的轮廓。它大致掌握了相关知识，然后开始创造。它构建了一种合适的形式，并用自己的知识填充其中。但永远不能百分之百确定它生成的内容是幻觉、错误的回答，还是正确的回答。所以，它的一部分内容可能是记忆中的，而另一部分则不是，无法精确区分。但大多数情况下，这就像是它在梦游或在做关于互联网文本的梦，源于它的数据分布。这种能力使得神经网络能够生成各种文本，从代码到商品描述再到百科全书条目，但它也意味着生成的内容需要谨慎验证和审查，以确保准确性和可信度。这就是模型训练和模型推断的关键过程，它们共同构建了人工智能模型的能力和潜力。

互联网文档生成器训练的第一阶段称之为预训练。训练的第二阶段，称之为微调。这一阶段会获得所谓的助手模型。希望能向某个系统提问，并让它根据这些问题生成答案。获得助手模型的主要过程与预训练过程相比，保持优化过程相同，训练方式也相同。这本质上是一个下一步工作预测的任务。但需要更换训练用的数据集。原本是在互联网文档上进行训练，现在转而使用手动收集的数据集。收集这些数据的方式是通过雇佣大量的人。通常，公司会雇佣人员，给他们标注指南，并要求他们提出问题，再为这些问题写出答案。预训练阶段主要处理大量来自互联网的文本，但这些文本可能质量不高，有数十甚至数百 TB 的文本，而且并非所有的都是高质量的。但在微调阶段，更看重数据的质量而非数量。可能只有很少的文档，比如 10 万份，由专业人士基于标注指南创建的，这些文档都是对话形式，并且都是非常高质量的。更换数据集，转而在这些问答形式的文档上进行训练。这个过程被称为微调。完成这些步骤后，将就获得所谓的助手型模型。

运行模型并不需要很多东西。这是一个非常小的程序包，但是当需要获取那些参数时，计算的复杂性就真正显现出来了。它们需要庞大的计算集群和大量数据集，而且在获取参数的过程中需要付出巨大努力。构建如 ChatGPT 这样的模型包括两个主要阶段：预训练和微调。预训练阶段需要从互联网上搜集大量文本资料，使用GPU集群进行处理。这些高性能计算机的成本非常昂贵，通常需要几百万美元的投入。完成后，就得到了基础模型。由于这个过程计算量巨大且成本高昂，公司通常一年或几个月才会做一次。微调阶段相对便宜，需要编写标注指南和雇佣人员进行帮助。由于微调成本较低，可以每周或每天进行迭代，许多公司在微调阶段而非预训练阶段会更频繁地进行迭代。这意味着在实际操作中，需要将这些数字大幅上调。这也解释了为什么如今这些神经网络的训练成本高达数千万甚至数亿美元。

综合如上对大模型以及训练过程、成本代价的简单理解，更多的行业企业用户获得大模型助手是真正目的。从社区的行业调查报告，如银行、医院，保险，证券等多个行业用户将重点都落在了基于商用和开源通用大模型进行微调，也就是第二阶段，获得大模型助手为目的从而开始展开了大模型的行业应用落地。

本期刊物主要围绕帮助行业企业用户获得大模型助手为目的，并针对大模型应用落地建立系统性认知，并从大模型项目落地顶层战略设计、大模型应用场景、大模型高质量语料获取、面向大模型的数据平台搭建、大模型数据生命周期存储管理、推理集群和训练集群难点、企业AI大模型人才培养等由已经实验践行的技术领导者们牵引，展开多个部分的主题讨论，并在同行中取得共识，最终为更多的行业企业大模型应用落地提供一定的决策参考。

行业大咖重磅推荐高屋建瓴解读本期核心内容