这是个很有意思的问题,非常有启发性。
我想这个问题可以拆分成两个部分考虑,一是纯文本的情况下是否能分析出情感成分,二是加入多模态数据啊,利用语音或视频加大信息获取,是否能从语音或视频数据里面得出情感的准确把握。
第一部分,文本信息本身肯定能够承载情感,如果是客服投诉这种场景,你一定可以从某些客户的投诉文字中看出愤怒,不解,迷惑等种种感情,如果要打造这种能力,一定需要针对性调整模型,也就是自己组建力量优化,也许可以基于一个已有的垂直大模型,在后期的微调阶段中做大量工作解决。
如果纯文本信息效果不满意,加入多模态数据训练是第二步的选择,理论上肯定会有帮助。但是目前多模态大模型本身也是前沿,国外的头部厂商也都还在探路,有啥了不起的新进展都能上新闻,所以技术成熟度可能还不够。但是这也是个好时机,大家起点相差不多,容易出成果,如果有条件是可以积极探索一下。
补充一下:仅从视频数据的动作分析就能获取情绪。
由宾夕法尼亚州立大学(Penn State University)华裔科学家James Wang领导的一个多机构团队编制的新数据集可能会增强人工智能从人类肢体语言中识别情绪的能力。团队负责人解释说:“通过使用人类共同的基本模式(称为运动元素)来描述特定的运动,我们可以建立这些运动元素与身体表达的情感之间的关系。”该数据集包含通过拉班运动分析(LMA)注释的1,600个人类视频片段中的运动元素。宾夕法尼亚州立大学的Chenyan Wu随后使用了一个双分支、双任务的动作分析网络,利用数据集来预测身体表达的情绪,并为新图像或视频添加LMA标签。
原文链接https://www.psu.edu/news/information-sciences-and-technology/story/human-body-movements-may-enable-automated-emotion/