准确率腰斩,大模型视觉能力一出日常生活就「失灵」

4周前更新 jovi
4 0 0

准确率腰斩,大模型视觉能力一出日常生活就「失灵」

EgoCross项目团队提出首个跨域第一人称视频问答基准,涵盖手术、工业、极限运动和动物视角四大领域,揭示现有多模态大语言模型在跨域场景下的泛化瓶颈。通过全面评测8款主流MLLM,发现即使最佳模型在跨域场景中表现也显著下降。研究探索了提示学习、监督微调及强化学习等方法,其中RL方法带来最显著性能提升(平均22%),为构建更具泛化能力的AI系统提供了新方向。

来源:36氪

© 版权声明
广告也精彩

相关文章

没有相关内容!