与传统业务场景相比,大模型对数据存储资源的需求有哪些相同与不同之处?

大模型作为新的应用范式,对数据存储的需求与传统业务有所不同。本议题交流核心是分析大模型应用对数据存储需求的特殊性在哪些方面? 又有哪些与传统业务数据存储需求一致的地方?

参与28

9同行回答

朱祥磊朱祥磊系统架构师某移动公司
相同之处:1.       数据存储需求量大:无论是传统业务场景还是大模型场景,都需要大规模存储数据,以满足业务需求。2.      数据安全性要求高:对于任何业务场景,数据的安全性和隐私保护都是重要的考虑因素。大模型也不例外,需要确保数据的安全性。3.      数据质...显示全部

相同之处:
1.       数据存储需求量大:无论是传统业务场景还是大模型场景,都需要大规模存储数据,以满足业务需求。
2.      数据安全性要求高:对于任何业务场景,数据的安全性和隐私保护都是重要的考虑因素。大模型也不例外,需要确保数据的安全性。
3.      数据质量很重要:无论是传统业务还是大模型应用,都需要确保数据的准确性和完整性,以提高模型的准确性和可靠性。

不同之处:
1.       数据规模差异:传统业务场景通常处理的数据量较小,而大模型则需要处理大规模的数据,可能达到数十TB甚至数百TB。
2.      数据处理速度要求:大模型需要快速处理和分析大量数据,对数据处理速度的要求更高。因此,数据存储系统需要具备高性能的读写能力和数据处理能力。
3.      数据存储类型多样化:在大模型场景中,除了结构化数据外,还需要处理大量的非结构化数据,如图像、音频和视频等。因此,数据存储系统需要支持多种类型的存储需求。
4.      数据存储效率要求:由于大模型需要进行大量迭代和训练,对数据存储的效率和响应时间有更高的要求。因此,数据存储系统需要具备高效率和低延迟的特点。
5.      数据存储可扩展性:大模型的应用和发展通常需要不断扩展数据存储容量和性能。因此,数据存储系统需要具备可扩展性,能够随着业务的发展而灵活扩展。

综上所述,虽然传统业务场景和大模型场景在数据存储资源需求方面有一些共同点,但大模型对数据规模、处理速度、存储类型、效率和可扩展性等方面有更高的要求。

收起
电信运营商 · 2024-01-18
浏览702
国金证券AI算法工程师国金证券AI算法工程师AI算法工程师国金证券
相同之处:数据量大:大模型和传统业务场景都需要处理大量数据,因此双方对于数据存储资源的需求量都很大。安全性:数据安全性对于大模型和传统业务场景都是重要关注点,尤其涉及内部私有数据和敏感数据。不同之处:存储方式:大模型需要特定的存储方式来支持高效读取模型参数和训练数...显示全部

相同之处:

  1. 数据量大:大模型和传统业务场景都需要处理大量数据,因此双方对于数据存储资源的需求量都很大。
  2. 安全性:数据安全性对于大模型和传统业务场景都是重要关注点,尤其涉及内部私有数据和敏感数据。
    不同之处:
  3. 存储方式:大模型需要特定的存储方式来支持高效读取模型参数和训练数据,而传统业务场景可能更多使用传统数据库和文件存储方式。
  4. 访问模式:大模型可能需要频繁的读写访问,而传统业务场景通常设计为批量处理和定时更新。
  5. 数据结构:大模型可能需要更复杂的数据结构来存储模型参数和训练数据,而传统业务场景更注重结构化数据存储。
    综上所述,虽然大模型和传统业务场景在数据存储资源需求方面有共通之处,如数据量大和安全性要求,但它们在存储方式、访问模式和数据结构等方面存在明显差异。理解这些相同与不同之处有助于有效满足大模型对数据存储资源的特殊需求。
收起
证券 · 2024-01-16
浏览771
leonardo1216leonardo1216研发工程师某金融机构
1、海量存储:大模型的训练需要海量的高质量数据,但是高质量数据往往从更海量的数据中筛选清洗而来,所以对于原始数据、清洗后数据的存储、分类管理是一个重要变化2、大规模异构存储:当前路线的多模态大模型的训练仍然需要异构数据,需要类似于数据湖的基础设施作为异构数据的集...显示全部

1、海量存储:大模型的训练需要海量的高质量数据,但是高质量数据往往从更海量的数据中筛选清洗而来,所以对于原始数据、清洗后数据的存储、分类管理是一个重要变化
2、大规模异构存储:当前路线的多模态大模型的训练仍然需要异构数据,需要类似于数据湖的基础设施作为异构数据的集成管理。
3、日志存储的可控性:大模型服务的可控性一直是大模型应用的重要问题。随之而来的,海量异构的服务日志,如何进行日志记录、筛选、反馈处理以及内容后审查等都与以往服务存在较大的不同。
4、知识存储:RAG的向量化存储、图存储等,均是随着大模型技术发展而发展的,需要考虑异构知识的统一存储和管理等新问题。

收起
银行 · 2024-01-15
浏览763
MosonMoson课题专家组架构师建信金融科技
大模型对数据存储资源的需求与传统业务场景相比,既有相同之处也有不同之处。相同之处在于,无论是大模型还是传统业务场景,都需要数据存储资源来存储和管理数据。数据存储资源需要具备可靠性、可用性和扩展性等特点,以确保数据的准确性和完整性,以及满足业务增长的需求。不同之...显示全部

大模型对数据存储资源的需求与传统业务场景相比,既有相同之处也有不同之处。
相同之处在于,无论是大模型还是传统业务场景,都需要数据存储资源来存储和管理数据。数据存储资源需要具备可靠性、可用性和扩展性等特点,以确保数据的准确性和完整性,以及满足业务增长的需求。
不同之处在于,大模型对数据存储资源的需求更为复杂和多样化。大模型需要处理的数据量通常更大,数据类型更为复杂,需要进行高效的读写操作和数据处理。此外,大模型还需要支持各种算法和计算需求,包括深度学习、机器学习等,对存储性能和I/O吞吐量的要求更高。
因此,大模型需要更加专业和高效的存储解决方案,例如分布式存储系统、高性能存储设备等,以满足其对数据存储资源的需求。同时,大模型也需要更加灵活和可扩展的存储架构,以适应不断变化的数据量和计算需求。

收起
银行 · 2024-01-19
浏览710
jinhaibojinhaibo课题专家组技术管理昆仑银行
相同之处:1、存储容量:无论是传统业务还是大模型,都需要一定规模的存储容量来存储数据。2、读取性能:在许多应用中,快速的数据读取速度是必要的,无论是传统业务还是大模型。3、数据一致性和完整性需求:无论是传统业务还是大模型,都需要保证数据的准确性和完整性,以避免数据错误或...显示全部

相同之处:
1、存储容量:无论是传统业务还是大模型,都需要一定规模的存储容量来存储数据。
2、读取性能:在许多应用中,快速的数据读取速度是必要的,无论是传统业务还是大模型。
3、数据一致性和完整性需求:无论是传统业务还是大模型,都需要保证数据的准确性和完整性,以避免数据错误或不一致导致的问题。
主要区别在以下方面:
1、数据类型:传统业务通常处理结构化数据,大模型需要处理各种类型的数据,包括结构化、半结构化和非结构化数据。需要不同类型的存储解决方案,如对象存储或分布式文件系统。
2、计算资源:大模型处理的数据量较大,需要更多的计算资源。对存储的性能需求增加,需要更高的I/O吞吐量、更快的处理速度等。
3、数据备份:由于大模型需要处理大量数据,考虑到数据备份的成本和数据本身的价值,需要针对不同价值的数据制定不同的备份策略,以权衡数据的可用性和成本。

收起
银行 · 2024-01-18
浏览717
xuyyxuyy联盟成员数据架构师秦皇岛银行
大模型与传统数据场景,均需具备良好数据基础与数据质量 ,且对数据安全性有较高的要求。大型模型的到来对数据和存储提出了新的要求。从成本的角度来看,数据和数据的存储过程和处理过程越来越重要。不仅数据量增加,数据处理过程也更加复杂,对性能的要求也越来越高,其附加值也越...显示全部

大模型与传统数据场景,均需具备良好数据基础与数据质量 ,且对数据安全性有较高的要求。
大型模型的到来对数据和存储提出了新的要求。从成本的角度来看,数据和数据的存储过程和处理过程越来越重要。不仅数据量增加,数据处理过程也更加复杂,对性能的要求也越来越高,其附加值也越来越高。
大模型要求算力和存力的建设需要有最佳的计算存量比例,大模型不能靠计算能力做好。计算能力建设过多,存力建设过少,会导致计算能力闲置,资源浪费。企业需要开展计算能力网络优化行动,加大高性能智能计算供给,加强先进存储产品部署 ,加快构建云端协同、计算、存储、运输一体化、多层次算力基础设施体系 。

收起
银行 · 2024-02-19
浏览534
chinesezzqiangchinesezzqiang课题专家组信息技术经理M
大模型对数据存储资源的需求非常高,主要体现在以下几个方面:相同之处:存储容量需求大:无论是哪种类型的大模型,都需要存储大量的数据,包括训练数据、模型参数等。高性能存储需求:大模型的训练和推理需要高速读写存储器,以支持实时处理和快速响应。持久性需求:大模型训练和推理产生...显示全部

大模型对数据存储资源的需求非常高,主要体现在以下几个方面:
相同之处:

  1. 存储容量需求大:无论是哪种类型的大模型,都需要存储大量的数据,包括训练数据、模型参数等。
  2. 高性能存储需求:大模型的训练和推理需要高速读写存储器,以支持实时处理和快速响应。
  3. 持久性需求:大模型训练和推理产生的数据需要长期保存,以便后续分析和挖掘。
  4. 可扩展性需求:随着大模型的不断发展,数据量会不断增加,存储系统需要具备可扩展性,以适应数据量的增长。
    不同之处:
  5. 数据类型差异:不同类型的大模型(如NLP、CV、语音等)需要处理的原始数据格式不同,因此对存储系统的数据类型需求也有所不同。
  6. I/O性能要求:某些大模型需要高速I/O性能来支持实时的训练或推理,而其他模型可能对I/O性能要求较低。
  7. 数据一致性需求:一些大模型需要高一致性的数据存储来保证训练和推理的准确性,而其他模型可能对数据一致性的要求较低。
  8. 成本考虑:对于一些经济高效的模型,存储成本也是需要考虑的重要因素。
    综上所述,大模型对数据存储资源的需求具有相似性和差异性。在为特定大模型选择存储系统时,需要综合考虑其具体需求和约束。
收起
IT其它 · 2024-01-29
浏览595
一桶浆糊一桶浆糊存储解决方案架构NA
相同点上面几位老师讲的比较多了,从大模型的生命周期角度补充一下对存储的一些需求:1、数据的采集和处理阶段,比如网络爬取、清洗标注等,这个阶段主要是要求存储支持丰富的接入协议以及海量的存储空间,高吞吐量。2、模型的开发设计阶段,该阶段主要涉及并行开发,需要数据存储具备...显示全部

相同点上面几位老师讲的比较多了,从大模型的生命周期角度补充一下对存储的一些需求:
1、数据的采集和处理阶段,比如网络爬取、清洗标注等,这个阶段主要是要求存储支持丰富的接入协议以及海量的存储空间,高吞吐量。
2、模型的开发设计阶段,该阶段主要涉及并行开发,需要数据存储具备各个兼容各平台能力,比如大数据平台、容器平台等。
3、模型训练阶段,主要是快速读取训练集及checkpoint的保存和读取,需要存储提供非常高效且稳定的数据读写能力。
4、模型推理部署阶段,此阶段我理解主要是计算密集型,但对模型加载和保存有需求,对存储的需求是高性能、高并发。同时具备较高的可靠性。

收起
系统集成 · 2024-01-23
浏览667
nxdynxdy系统运维工程师nj
一、传统业务场景和大模型场景在数据存储资源需求的不同之处如下:传统业务场景,包括交易类的、数据分析类等,这些业务场景主要使用的是关系型的结构化数据,通俗来讲,就是二维表格。这些关系型数据在软件层面主要使用传统的关系型数据库进行存储,在硬件层面可以放在集中式块存储...显示全部

一、传统业务场景和大模型场景在数据存储资源需求的不同之处如下:
传统业务场景,包括交易类的、数据分析类等,这些业务场景主要使用的是关系型的结构化数据,通俗来讲,就是二维表格。这些关系型数据在软件层面主要使用传统的关系型数据库进行存储,在硬件层面可以放在集中式块存储、文件存储等存储设备上。
大语言模型,顾名思义,以处理自然语言文字信息为主,因此它所使用的数据主要不是关系型结构化数据,而是海量的语言文字数据,可以使用文本数据库、向量数据库、数据仓库、数据湖等方式进行存储,因为语言文字数据具有海量的特性,所需要的空间非常大,且增长速度快,因此在硬件层面上,应该使用分布式存储、对象存储等。
二、相同之处如下:
传统业务场景与大模型场景,都需要充足的数据存储空间,且存储设备都需要具备高可用、高性能、高吞吐、稳定性强的特点。

收起
银行 · 2024-01-17
浏览737

ChatGPT 回答

大模型应用相较于传统业务,对数据存储的需求具有以下特殊性:

  1. 数据量大:大模型需要处理的数据量通常非常庞大,这就要求数据存储系统能够承受大规模的数据存储和处理。
  2. 数据类型复杂:大模型需要处理的数据类型通常非常复杂,包括结构化数据、非结构化数据、图像、音频、视频等多种类型,这就要求数据存储系统能够支持多种数据类型的存储和处理。
  3. 数据访问速度要求高:大模型需要快速访问和处理数据,因此数据存储系统需要具有高速读写能力和低延迟的数据访问能力。
  4. 数据安全性要求高:大模型处理的数据通常包含敏感信息,因此数据存储系统需要具有高度的数据安全性,包括数据加密、访问控制、备份和恢复等功能。

与传统业务数据存储需求一致的地方包括:

  1. 数据一致性:无论是大模型还是传统业务,都需要保证数据的一致性,即数据在不同的系统和应用之间能够保持同步和一致。
  2. 数据可靠性:无论是大模型还是传统业务,都需要保证数据的可靠性,即数据在存储和处理过程中不会丢失或损坏。
  3. 数据备份和恢复:无论是大模型还是传统业务,都需要进行数据备份和恢复,以保证数据在意外情况下能够及时恢复。
  4. 数据管理和维护:无论是大模型还是传统业务,都需要进行数据管理和维护,包括数据清洗、数据归档、数据迁移等操作。

提问者

wanggeng
系统运维工程师某银行
擅长领域: 服务器存储数据库

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2024-01-15
  • 关注会员:10 人
  • 问题浏览:2277
  • 最近回答:2024-02-19
  • X社区推广