15:23
准确率腰斩,大模型视觉能力一出日常生活就「失灵」

EgoCross项目团队提出首个跨域第一人称视频问答基准,涵盖手术、工业、极限运动和动物视角四大领域,揭示现有多模态大语言模型在跨域场景下的泛化瓶颈。通过全面评测8款主流MLLM,发现即使最佳模型在跨域场景中表现也显著下降。研究探索了提示学习、监督微调及强化学习等方法,其中RL方法带来最显著性能提升(平均22%),为构建更具泛化能力的AI系统提供了新方向。













