《迈向YB数据时代》第8期本期主题:大模型行业应用
卷首语

一个大语言模型简单理解,由存储参数的文件和运行这些参数的代码两个文件组成的。这些参数是神经网络(即语言模型)的权重或参数。从数学上可以证明,预测与数据压缩之间存在密切联系。简单来说,这种神经网络训练在某种意义上是一种数据压缩,可以被理解为对大量互联网内容的压缩。但这种压缩与zip文件不同,zip文件是无损压缩,而这里是有损压缩。只是大致获取了训练文本的概念,而不是在这些参数中保留了文本的完整副本。

模型推断简单理解,就是生成下一个词,从模型中采样,选择一个词,继续将其反馈进去并得到下一个词,然后继续反馈和重复。可以理解神经网络是基于网页内容进行训练的,让这个神经网络仿佛“梦游”互联网文档,运行神经网络或者说推理,得到类似于在网络上浏览的梦境体验。它不会完全复制训练集中看到的文档,但它会对互联网的信息进行某种程度的压缩和整合,它能够记住整体的轮廓。它大致掌握了相关知识,然后开始创造。它构建了一种合适的形式,并用自己的知识填充其中。但永远不能百分之百确定它生成的内容是幻觉、错误的回答,还是正确的回答。所以,它的一部分内容可能是记忆中的,而另一部分则不是,无法精确区分。但大多数情况下,这就像是它在梦游或在做关于互联网文本的梦,源于它的数据分布。这种能力使得神经网络能够生成各种文本,从代码到商品描述再到百科全书条目,但它也意味着生成的内容需要谨慎验证和审查,以确保准确性和可信度。这就是模型训练和模型推断的关键过程,它们共同构建了人工智能模型的能力和潜力。

互联网文档生成器训练的第一阶段称之为预训练。训练的第二阶段,称之为微调。这一阶段会获得所谓的助手模型。希望能向某个系统提问,并让它根据这些问题生成答案。获得助手模型的主要过程与预训练过程相比,保持优化过程相同,训练方式也相同。这本质上是一个下一步工作预测的任务。但需要更换训练用的数据集。原本是在互联网文档上进行训练,现在转而使用手动收集的数据集。收集这些数据的方式是通过雇佣大量的人。通常,公司会雇佣人员,给他们标注指南,并要求他们提出问题,再为这些问题写出答案。预训练阶段主要处理大量来自互联网的文本,但这些文本可能质量不高,有数十甚至数百 TB 的文本,而且并非所有的都是高质量的。但在微调阶段,更看重数据的质量而非数量。可能只有很少的文档,比如 10 万份,由专业人士基于标注指南创建的,这些文档都是对话形式,并且都是非常高质量的。更换数据集,转而在这些问答形式的文档上进行训练。这个过程被称为微调。完成这些步骤后,将就获得所谓的助手型模型。

运行模型并不需要很多东西。这是一个非常小的程序包,但是当需要获取那些参数时,计算的复杂性就真正显现出来了。它们需要庞大的计算集群和大量数据集,而且在获取参数的过程中需要付出巨大努力。构建如 ChatGPT 这样的模型包括两个主要阶段:预训练和微调。预训练阶段需要从互联网上搜集大量文本资料,使用GPU集群进行处理。这些高性能计算机的成本非常昂贵,通常需要几百万美元的投入。完成后,就得到了基础模型。由于这个过程计算量巨大且成本高昂,公司通常一年或几个月才会做一次。微调阶段相对便宜,需要编写标注指南和雇佣人员进行帮助。由于微调成本较低,可以每周或每天进行迭代,许多公司在微调阶段而非预训练阶段会更频繁地进行迭代。这意味着在实际操作中,需要将这些数字大幅上调。这也解释了为什么如今这些神经网络的训练成本高达数千万甚至数亿美元。

综合如上对大模型以及训练过程、成本代价的简单理解,更多的行业企业用户获得大模型助手是真正目的。从社区的行业调查报告,如银行、医院,保险,证券等多个行业用户将重点都落在了基于商用和开源通用大模型进行微调,也就是第二阶段,获得大模型助手为目的从而开始展开了大模型的行业应用落地。

本期刊物主要围绕帮助行业企业用户获得大模型助手为目的,并针对大模型应用落地建立系统性认知,并 从大模型项目落地顶层战略设计、大模型应用场景、大模型高质量语料获取、面向大模型的数据平台搭建、大模型数据生命周期存储管理、推理集群和训练集群难点、企业AI大模型人才培养等由已经实验践行的技术领导者们牵引,展开多个部分的主题讨论,并在同行中取得共识,最终为更多的行业企业大模型应用落地提供一定的决策参考。

行业大咖重磅推荐高屋建瓴解读本期核心内容
协作专家阵容一线实战技术专家群体发声
议题主持和互动专家
  • 邓俊峰
    某股份制银行 AI技术经理
  • 丁翼
    江苏省农村信用社联合社 高级主管
  • 董生
    某国有银行 数据应用分析专家
  • 耿晓阳
    某金融 大模型平台工程师
  • 苟志龙
    中国民生银行 总行数据产品团队负责人
  • 韩普
    某大型金融企业 架构师
  • 金海波
    昆仑银行 大数据负责人
  • 李双宏
    国金证券 AI算法工程师
  • 刘瀚中
    申万宏源证券 AI开发工程师
  • 刘艳春
    某金融机构 架构师
  • 刘远圳
    某股份制银行 AI产品经理
  • 罗文江
    某股份制银行 架构师
  • 彭于晏
    某股份制银行 大模型工程师
  • 石聪
    某股份制银行 AI算法工程师
  • 滕召森
    东莞银行 数据分析师
  • 王万春
    某金融企业 高级经理
  • 王瑜
    申万宏源证券 财富条线人工智能应用负责人
  • 许小龙
    大型金融企业 大模型工程师
  • 徐园园
    秦皇岛银行 数据架构师
  • 杨磊
    中信建投 数据库架构师
  • 张志强
    福田汽车 信息安全部高级经理
  • 朱向东
    中原银行 高级工程师
  • 朱祥磊
    山东移动 架构师
  • 陈雪菲
    上海市计算机学会 技术专家
审核专家
  • 张笑冬
    大型股份制银行 大模型领域技术负责人
  • 谭则涛
    广发证券 AI研发经理
  • 唐登龙
    国泰君安证券 高级产品经理
  • 范容
    易企银(杭州)科技有限公司 大数据研发部总经理
  • 蔡开程
    广汽研究院 信息与数字化部科长
主要栏目与议题聚焦行业项目建设过程真实业务需求
  1. 议题1:如何构建高效的资源配置策略以支持大型模型项目?
  2. 议题2:如何在金融服务使用大模型时确保数据隐私和安全?
  3. 实践心得:银行如何加速构建数据基础设施以支持大模型应用?
  1. 议题1:大模型在信用评估、欺诈检测、客户服务中的微调策略共同点与不同点?
  2. 议题2:通过哪些性能指标来评估微调后的大模型实际业务效果?
  3. 实践心得:金融行业的AI驱动新阶段:大模型技术的影响力
  1. 议题1:大模型微调过程中如何避免灾难性遗忘?
  2. 议题2:长尾场景下的数据如何清洗,有哪些方法、措施、注意点?
  3. 实践心得:制造业中某大型车企在安全大模型上的实践分享
  1. 议题1:企业大模型数据治理倾向哪些模式和倾向的理由?
  2. 议题2:大模型趋势下,金融企业如何进行向量数据库的技术选型评估?
  3. 议题3:大模型趋势下,金融企业向量数据库如何进行高可用部署?
  1. 议题1:与传统业务场景相比,大模型对数据存储资源的需求有哪些相同与不同之处?
  2. 议题2:金融行业建设大模型推理集群和训练集群时,如何选择合适的存储提升大模型的整体性能?
  3. 实践心得:大模型存储需求及技术策略
  1. 议题1:大语言模型训练过程中,如何提供稳定训练断点保存和恢复的存储能力?
  2. 议题2:如何快速加载大模型需要的数据并进行训练?
  3. 议题3:当金融行业选择训推一体化架构建设大模型时,需要通过哪些方面进行可行性分析?
  4. 实践心得:金融企业在建设大模型推理集群和训练集群的网络难点分析
  1. 议题:企业大模型微调项目落地实施有哪些关键岗位角色及职责?
报名投稿

如果您有意愿参与《迈向YB数据时代》的协作生产,欢迎点击下方报名投稿按钮,我们将会与您取得联系。所有内容在审核通过并录用后,将会出现在《迈向YB数据时代》中,同时推荐到twt社区微信公众号等相关平台,会依据您的意愿注明公司与姓名。

我要投稿
X社区推广