大模型趋势下，金融企业如何进行向量数据库的技术选型评估？

向量数据库定位为大模型落地解决数据更新、知识图谱构建、消除幻觉等问题，当前向量数据库市场存在不同的技术路线和诸多厂商的产品，企业面临根据自身应用场景和大模型技术栈，选择适合自身需求的向量数据库的难题。

通过本话题的探讨重点考察向量数据类型、向量检索算法、数据一致性、编程接口、多租户、数据导入导出功能，以及系统架构和技术路线。

关注 7

参与13

6 同行回答

证券
全部行业 互联网服务 银行 证券 电信运营商

|

按赞同排序

按时间排序

Ethan_Yang

技术架构师某金融司

向量数据在2023年才开始兴起来，之前大家对之知之甚少。火起来是因为2023 年 3 月英伟达的黄仁勋在 GTC 大会上点名了向量数据库，且是作为大语言模型的外挂记忆体作为场景定义而出现的，被接纳为 RAG（Retrieval-Augmented Generation）——基于检索增强的内容生成。

RAG 一开始就致力于解决大语言模型（LLM）本身存在的一些问题。做法是：把数据先用工具切分好，通过一个 Embedding 模型转成为向量保存到向量数据库。回答问题时，先把问题也转化为一条向量，再用该向量去数据库内进行 Top K 相似度比对，然后把返回的结果拼接成提示词，交给 LLM 回答。

现在市面上的一种争议是：研发一款向量数据？还是在成熟的数据库中插入内嵌向量搜索能力？（如 pg_vector可让 PostgreSQL 具备向量搜索能力）。

这边比较倾向于第二种，在现有成熟的数据库中集成向量搜索能力，可以具备检索能力、向量化能力；同时又具备成熟数据库的执行引擎，提供更多的访问能力。让向量搜索成为现有的数据库中的一个功能。

这对于企业来说也许是一个更好的、更容易落地的选择，毕竟做下现有数据库的版本升级即可了。

随着大语言模型（LLM）的发展，企业的数字化转型需要借助LLM构建自身的企业搜索引擎，而现有数据库中引入向量搜索能力，能够帮助企业实现这一目的。

收起

证券 · 2024-02-07

在银行行业中，向量数据库可以用于解决许多问题，如数据更新、知识图谱构建和消除幻觉等。在选择适合自身需求的向量数据库时，企业需要考虑以下几个方面：

向量数据类型：向量数据库支持的向量数据类型是选择向量数据库的重要因素之一。在银行行业中，常见的向量数据类型包括文本、图像和声音等。因此，企业需要选择支持这些数据类型的向量数据库。
向量检索算法：向量检索算法是向量数据库的核心技术之一。在银行行业中，常见的向量检索算法包括余弦相似度、欧氏距离和曼哈顿距离等。企业需要选择适合自身需求的向量检索算法。
数据一致性：在银行行业中，数据一致性是非常重要的。因此，企业需要选择支持数据一致性的向量数据库。
编程接口：向量数据库的编程接口是企业选择向量数据库的重要因素之一。企业需要选择易于使用和集成的向量数据库。
多租户：在银行行业中，多租户是非常重要的。因此，企业需要选择支持多租户的向量数据库。
数据导入导出功能：向量数据库的数据导入导出功能是企业选择向量数据库的重要因素之一。企业需要选择支持数据导入导出功能的向量数据库。
系统架构和技术路线：企业需要选择适合自身需求的向量数据库系统架构和技术路线。

总之，企业在选择向量数据库时需要考虑多个方面，包括向量数据类型、向量检索算法、数据一致性、编程接口、多租户、数据导入导出功能，以及系统架构和技术路线。根据自身应用场景和大模型技术栈，选择适合自身需求的向量数据库是非常重要的。