大模型选型评估框架是什么？应该包含哪些评选维度？

1.该议题希望构建大模型的评估框架，以科学选择适宜的大模型，确保在特定业务中实现卓越性能。2.一些个人看法评估标准：准确性、效率、资源消耗、模型透明度和系统兼容性。适配性：评估模型在不同数据和任务中的适应性和泛化力。实践案例：案例研究，指导模型选择与评估。3.该议题的...显示全部

关注9

参与26

查看其它 7 个回答catalinaspring的回答

catalinaspring

副处长金融

大语言模型的核心能力大致分为：生成（Generate）、总结（Summarize）、提取（Extract）、分类（Classify）、检索（Search）与改写（Rewrite）六部分。
1、生成能力（Generate）
文本生成是给定输入与上下文生成新文本。生成能力是LLM最核心的能力。其能力的建立来源于对大量的文本进行训练，并捕捉了语言的内在联系与人类的使用模式。
2、总结能力（Summarize）
总结是LLM的重要能力。通过Prompt Engineering，LLM可对用户输入的文本提炼总结。在工作中我们每天会处理大量会议、报告、文章、邮件等文本内容，LLM总结能力有助于快速获取关键信息，提升工作效率。
3、提取能力（Extract）
提取文本信息是NLP中常见需求。LLM有时可以提取比传统NLP方法更难提取的实体。利用LLM提取文本中的时间、地点、人物等信息，旨在将文本关键信息进行结构化表示。除此之外，还可用于提取摘录合同、法律条款中的关键信息。
4、分类能力（Classify）
大模型对文本内容分类的优势在于强语义理解能力与小样本学习能力。也就是说其不需要样本或需要少量样本学习即可具备强文本分类能力。总结起来大模型优势在于：仅通过few-shot学习可超越传统垂直领域模型能力。
5、检索能力（Search）
文本检索是根据给定文本在目标文档中检索出相似文本。最常用的是搜索引擎，搜索引擎根据输入返回高度相关的内容或链接。在检索应用中，LLM的优势在于能够实现语义级别匹配。LLM语义检索可弥补传统关键词匹配检索不足，在本地知识库与搜索引擎中的语义搜文、以文搜图中存在应用价值。
6、改写能力（Rewrite）
通过LLM对输入文本按照要求进行润色、纠错。通过LLM与提示词工程（Prompt Engineering）自动对文本内容纠错。此外，还可用其对文章进行润色处理，使文章在表述上更加清晰流畅。

大模型框架基本可以归纳为三个部分：Stage 1: 预训练(Pretrain)；Stage 2: 监督微调(SFT)；Stage 3: 对齐(Reward Model + RLHF)。

银行 · 2024-01-14

大模型选型评估框架是什么？应该包含哪些评选维度？

查看其它 7 个回答catalinaspring的回答

回答者

catalinaspring 最近回答过的问题

回答状态