数据治理与大型模建设的相互影响有哪些?

随着机器学习、云计算和大数据等技术的不断发展,以及大规模集成电路技术的飞速进步,大模型的发展和应用,于近几年呈现突飞猛进之势。同时,大模型趋势下,企业数据治理体系,挑战和机遇并存。一方面,大模型的训练,需要大量的基础数据,而数据采集、清洗、加工、处理等环节需要耗费大量时间和人力,数据质量的提升也需要长期、持续的过程。另外,大模型的训练和推理,需要高性能的计算资源及强大的算法和计算能力的支持,这都需要企业持续加大投资规模、并加强技术研发。另一面,大模型的发展,也为企业的数据治理和应用带来了新的机遇。企业需要思考在数据治理、数据存储、数据安全、数据整合、数据分析和挖掘以及业务应用等方面,如何提高能力、加强应用和队伍建设,以有效应对大模型带来的挑战,实现数字化转型。
当前,很多企业都面临数据不全、不准、不一致等问题,这对大模型的分析结果将产生极大的不利影响。如果把大模型比喻成做饭的“锅”,那数据就可以理解成“米”,如果米的质量不好,锅再高级,也很难做出好吃的米饭,因此,大模型如何与企业原有架构(如数据湖、湖仓一体、数据仓库)有机融合,并促动提高企业的数据治理能力就显得非常重要。期望大家能在大模型如何与企业原有架构(如数据湖、湖仓一体、数据仓库)有机融合,并促动提高企业的数据治理能力方面形成共识,如,大模型的部署和应用如何有效对接企业的数据仓库,并结合大模型在企业各领域的应用,配套有效提高仓库中数据的准确性、完整性、一致性、有效性。希望专家们围绕大模型与企业数据湖/湖仓一体/数据仓库如何有机融合,并同步如何提升企业数据治理能力等方面开展研讨和交流。

希望本话题可以重点围绕:
讨论企业的数据治理能力(包括治理架构、数据标准、数据字典、标签管理、指标设计、数据安全等)与大型模开发、调整和应用的相互影响?

参与3

1同行回答

catalinaspringcatalinaspring联盟成员副处长金融
效能建设的核心变量,在于数据治理。但这个“数据”,和大数据时代的“数据”,内涵又有很大不同。传统的数据治理,针对数据分析场景,主要面向结构化数据,包括主动元数据、AI增强治理等技术,已成比较成熟的体系。而数据治理的新内涵,面向大模型训练常见的非结构化数据。非结构化数据...显示全部

效能建设的核心变量,在于数据治理。但这个“数据”,和大数据时代的“数据”,内涵又有很大不同。传统的数据治理,针对数据分析场景,主要面向结构化数据,包括主动元数据、AI增强治理等技术,已成比较成熟的体系。而数据治理的新内涵,面向大模型训练常见的非结构化数据。
非结构化数据治理的首要难题是,高质量的领域数据获取的成本。数据集质量的评估是多维度的,需要平衡几项因素:灵活性、多样性和准确率。其中,灵活性、多样性是指模型面对变化多样的prompt也能给出一致的回答,这在通用大模型应用中很常见。而领域数据之所以对质量要求高,也是因为对准确率要求很高。
数据类型的划分,除了质量,还可以从知识表示的形式进行划分,不同形式对应不同的训练方法。数据或任务通常包含两大类型,第一种属于重表示型,比如把对Java线程的解释进行重新表述,第二种属于知识问答型,比如如果不知道授信额度的准确定义,就无法回答一些相关知识问答。
效率是一方面,性能是另一方面。企业做产品,除了提升效率来保证落地,也要在保证效率前提下提升性能,才能最大程度上保证用户体验。

收起
银行 · 2024-01-11
浏览238

ChatGPT 回答

针对大模型如何与企业原有架构(如数据湖、湖仓一体、数据仓库)有机融合,并促动提高企业的数据治理能力这一议题,以下是一些策划思路:

  1. 数据治理与大型模建设的相互影响:企业需要建立完善的数据治理体系,包括数据标准、数据字典、数据质量管理、数据安全等,以确保数据的准确性、完整性、一致性和安全性。同时,企业需要考虑如何将大模型的开发、调整和应用纳入数据治理体系中,以确保大模型的应用不会影响数据的质量和安全。例如,企业可以建立数据质量监控机制,对大模型的训练数据和应用数据进行监控和评估,确保数据的质量符合标准。
  2. 数据质量对大型模应用的影响:企业需要加强数据质量管理,提高基础数据的及时性、一致性、完整性、准确性,以有效支持大模型的应用。例如,企业可以建立数据清洗和数据加工流程,对数据进行清洗和加工,提高数据的质量。同时,企业需要建立数据质量评估机制,对数据进行评估和监控,及时发现和解决数据质量问题。
  3. 数据湖、湖仓一体、数据仓库等基础、统一数据平台建设,对大型模应用的影响:企业需要建设好数据湖、湖仓一体、数据仓库等平台,以支持大模型的应用。例如,企业可以建立数据采集策略,选择合适的数据采集工具和技术,确保数据的及时性和完整性。同时,企业需要建立数据整合策略,将不同来源的数据整合到一起,以支持大模型的训练和应用。
  4. 大模型与企业原有架构的结合:企业需要考虑如何将大模型与企业原有架构(如数据湖、湖仓一体、数据仓库)有机融合,以实现数据的共享和互通。例如,企业可以建立数据共享机制,将大模型的训练数据和应用数据共享给其他部门和业务系统使用,以提高数据的利用率和价值。

综上所述,企业需要建立完善的数据治理体系,加强数据质量管理,建设好数据湖、湖仓一体、数据仓库等平台,以及将大模型与企业原有架构有机融合,以支持大模型的应用,并促动提高企业的数据治理能力。

提问者

catalinaspring
副处长金融
擅长领域: 人工智能数据库大数据

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2024-01-10
  • 关注会员:1 人
  • 问题浏览:786
  • 最近回答:2024-01-11
  • X社区推广