银行如何高效地收集数据并进行预处理提高大语言模型训练效率？线下探讨（11月25日北京站）

活动简介

在过去的几年里，大语言模型已经取得了显著的进展，以ChatGPT代表的大语言模型正在催生新一轮技术革命浪潮，国内外科技巨头也在加快产业布局，在全球范围掀起大语言模型科技竞赛，生成式AI领域风起云涌。

大语言模型是人工智能领域中的一种重要技术，它可以通过对大量文本数据的学习，理解和生成人类语言。其应用范围广泛，包括自然语言处理、机器翻译、对话系统、智能客服、文本生成等领域。

作为数据密集型行业，银行业一贯是先进科技应用的先锋军，以工商银行、民生银行、光大银行、华夏银行为代表的商业银行纷纷探索大语言模型在金融领域各场景的应用落地，大语言模型已经成为商业银行必争之地。大语言模型虽好，但是围绕着的数据收集、数据存储、数据处理、模型训练及优化等工作，也给金融企业带来了巨大挑战。其中如何对数据进行预处理提高模型训练效率，如何提升底层存储的容量、读写速度、可扩展性，是业内普遍关注的重点。在此背景下，本次会议以《银行如何高效地收集数据并进行预处理提高大语言模型训练效率》为主题，旨在讨论银行如何进行大语言模型应用落地实践。

本期核心探讨的问题有：

1、数据收集和预处理，如何高效地收集大量的文本数据并对其进行预处理。

2、数据存储和管理，如何将收集到的数据存储在高效的数据存储设备上，并建立合适的数据管理体系，以便后续的数据处理和分析。

3、数据标签化和分类，如何对数据进行标签化和分类。

4、数据扩充和增强，如何对数据进行扩充和增强，以增加数据的多样性和丰富性，提高模型的训练效果。

活动时间：11月25日14:00-17:00

活动地址：北京（具体地址会在您报名审核通过后通知）

报名方式：

1、如您希望参与本次活动，请将您的联系信息（姓名、单位、职务、手机、邮箱）回复邮件至peibin.peng@twtgroup.com.cn 进行邮件报名，我们将在1个工作日内审核反馈；

2、活动平台上直接点击报名，报名后我们会与您联系！

支持组织：

日程

时间	安排
13:30-14:00	签到，会前交流
14:00-14:20	开场介绍
14:20-14:50	某股份制银行大模型平台选型及提升大模型训练效率实践
14:50-15:30	某股份制银行业大语言模型的数据准备与模型优化
15:30-16:10	生成式AI数据存储管理解决方案分享
16:10-17:00	同行交流

主持嘉宾

金海波某银行 AI技术专家

多年来一直从事银行系统的开发和管理工作，牵头组织实施了多个行内大型项目的研发和投产，包括：数据仓库、大数据平台、知识图谱、机器学习、大数据风控、智能营销、RPA等，参与的项目多次获得监管机构、外部机构及行内创新项目成果奖，对银行数据能力建设有丰富实践经验。

分享嘉宾

苟志龙某股份制银行数据产品中心总监

历任算法和数据产品团队负责人。在模型建设、产品研发、文化规划等方面具有丰富经验。近年来，重点推动银行数字化转型，通过完善数据科学体系、孵化数据产品、培育数据文化等举措，提升全行数据驱动能力。本人为“北京市金融科技领军人才”获得者，名下多项创新成果已转化为商业价值，推动行内业务提质增效。

大伟某股份制银行大模型项目负责人

主要负责银行行业大模型算力和应用场景规划，包括平台建设、大模型选型等。

郭洪星华为分布式存储解决方案首席架构师

15年分布式存储研发设计经验，主导过华为三代全自研分布式存储产品设计，对存储如何加速AI大模型开发，存储如何加速高性能数据分析具有深入研究。