评估微调后的大模型实际业务效果,通常会考虑以下几个性能指标:
1. 准确率(Accuracy):这是最基本的性能指标,表示模型正确预测的样本数占总样本数的比例。
2. 精度(Precision):表示模型预测为正的样本中真正为正的样本的比例。
3. 召回率(Recall):也称为真阳性率,表示模型真正预测为正的样本占所有实际为正的样本的比例。
4. F1 分数(F1 Score):是精度和召回率的调和平均数,用于综合考虑模型的精度和召回率。
5. AUC-ROC(Area Under the Receiver Operating Characteristic Curve):ROC曲线是真正率(TPR)与假正率(FPR)的曲线,AUC-ROC表示ROC曲线下的面积,用于衡量模型的整体性能。
6. 交叉熵损失(Cross-Entropy Loss):在分类问题中,交叉熵损失表示模型预测的概率分布与真实概率分布之间的距离。
7. 混淆矩阵(Confusion Matrix):用于分析模型在实际应用中的表现,包括真正例(TP)、假正例(FP)、真反例(TN)和假反例(FN)。
8. 稳定性(Stability):表示微调后的大模型在不同数据集或不同时间点上的表现是否稳定。
9. 可解释性(Interpretability):表示模型的可理解程度,对于金融行业来说非常重要,因为需要了解模型的决策依据。
10. 运行时性能(Runtime Performance):包括模型的推理速度、内存占用等,用于评估模型在实际应用中的效率。
在金融行业中,可能还需要考虑其他特定的性能指标,如风险评估、客户分群、欺诈检测等方面的指标。根据实际业务需求,可以选择合适的性能指标进行评估。