1、海量存储:大模型的训练需要海量的高质量数据,但是高质量数据往往从更海量的数据中筛选清洗而来,所以对于原始数据、清洗后数据的存储、分类管理是一个重要变化
2、大规模异构存储:当前路线的多模态大模型的训练仍然需要异构数据,需要类似于数据湖的基础设施作为异构数据的集成管理。
3、日志存储的可控性:大模型服务的可控性一直是大模型应用的重要问题。随之而来的,海量异构的服务日志,如何进行日志记录、筛选、反馈处理以及内容后审查等都与以往服务存在较大的不同。
4、知识存储:RAG的向量化存储、图存储等,均是随着大模型技术发展而发展的,需要考虑异构知识的统一存储和管理等新问题。