准确率腰斩，大模型视觉能力一出日常生活就「失灵」

3个月前更新 jovi

EgoCross项目团队提出首个跨域第一人称视频问答基准，涵盖手术、工业、极限运动和动物视角四大领域，揭示现有多模态大语言模型在跨域场景下的泛化瓶颈。通过全面评测8款主流MLLM，发现即使最佳模型在跨域场景中表现也显著下降。研究探索了提示学习、监督微调及强化学习等方法，其中RL方法带来最显著性能提升（平均22%），为构建更具泛化能力的AI系统提供了新方向。

来源：36氪

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

准确率腰斩，大模型视觉能力一出日常生活就「失灵」

没有更多了...

没有更多了...

相关文章