目前全国大模型厂家这么多,在进行私有化落地的时候,就需要进行大模型的POC测试与选型,我们总结了目前内部比较关注的一些点 产品能力: 1.效率稳定性 2.性能优越性 3.安全可控性 服务能力:1.工程化能力2.平台生态能力3.需求匹配能力对于这些点,存在一个比较稳定的通用测试方案。是否存在类似数据库TPCC,TPCDS这样的标准型测试,定义大模型层面的一些基础性指标,评估各家大模型的强弱。
我觉得现阶段不要想的太多,也不要用之前搞系统的方式来看待新东西。使用似SuperCLUE,C-Eval等的评测,加上自己的一些主动评测就好。其实目前私有化部署方面Llama2 是最佳选择,做大模型评测交给类似BAAI(flagEval等),SuperCLUE就好,不要自己去玩。
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2023talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30