感觉针对不同行业会发展出不同的大模型,现在大模型展现出的能力是多样化的,能理解语义,能总结分析,能生成图片视频,比如说游戏行业可能需要生成图片,新闻行业就需要生成文稿,而金融行业可能需要智能检索。
收起这些只是一些可能的发展趋势,未来的大型语言模型可能会出现更多创新和改进。随着技术的不断发展,我们可以期待看到更加强大和智能的语言模型的出现。
收起如果以相对健康的发展作为目标模式来讨论的话,那大模型生态体系的发展应该是产学研用一体化的模式,这需要综合考虑大模型的技术研究、场景能力研发、应用效果闭环迭代等核心要点,这个和企业里将业技融合比较像,是一个双向奔赴的过程。这场双向奔赴,急需学界提出前瞻性的研究方向作为储备,也需要产业界从需求及应用端给予闭环反馈,以推动大模型技术落地的良性发展。
总体来说,2023年是国内大模型生态体系发展的元年,供给侧从卷算力(包含LLMs基础设施解决方案)发展到卷参数量,又从卷参数量发展到卷上下文窗口长度,近期又从卷上下文窗口长度发展到卷Prompt应用层,发展态势上总体呈现出供给侧逐渐向需求侧对齐的趋势。大模型是否好用(考察场景的广度和效果的深度)、是否切实帮助企业实现降本增效(考察业技融合的程度及效果)、是否赋能到企业每位员工提升数智化生产力(大模型被工具化融入员工日常的广度和深度)等都变得极为重要。可以说,内卷社会的新技术应用被寄与了更高的期待,大模型技术应用将被视为新时代的数据产品,需要高度重视用户体验及解决问题的实际效果。凡是有利于这些发生的方向,都会在接下来的时间萌芽及发展。
已经很明确的趋势是会分成两大类,通用大模型和垂直(行业)大模型。
通用大模型基本上是巨头的游戏,真正能在激烈竞争中胜出的参与者应该只是个位数。 国外的OpenAI+Microsoft,Google,Meta等几个互联网巨头,国内的百度阿里腾讯商汤字节。
垂直大模型就竞争激烈些,百模大战,国内基本都是这个做法:基于已经开源的模型,拿过来按照行业特色重新训练几个月或者仅是微调tuning一两个月,然后私有化部署卖集成方案。这里面行业机会非常多,不仅有初创企业,前面说的国内通用大模型玩家也大半会涉及进来,两头发力。还有就是有实力的甲方,可能自己也会做适配工作,毕竟模型的软件算法已经开源了,有数据集有GPU就能自己动手做。
如果说大模型本身的技术发展,现在有几个趋势是明确的,MoE混合专家架构的采用,多模态,RHLF过程去除人工介入,推理过程的效用增强,时延受控。内存管理和多维并行等。
具体可以看我最近写的文章,生成式AI与存储最新发展
收起在大模型时代,大语言模型已经成为了互联网服务行业的重要技术之一。未来,大模型的发展趋势可能会有以下几个方向:
总之,大模型的发展趋势是多样化、高效化、精细化、个性化等方向的综合发展。