港中文联手美团开源“视觉推理通才”，图像视频10类任务一网打尽

3个月前更新 jovi

香港中文大学MMLab与美团研究团队开源OneThinker，一个基于RL的多模态视觉推理通才模型，覆盖图像与视频十类核心任务，在31项主流视觉任务测试中表现优异。通过构建统一数据体系和优化多任务训练方法（如EMA-GRPO算法），OneThinker解决了传统RL模型在单一模态或任务上的局限性，展现了跨模态、多任务的通用理解和零样本能力，为实现通用视觉智能提供了新路径。

来源：36氪

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

港中文联手美团开源“视觉推理通才”，图像视频10类任务一网打尽

没有更多了...

没有更多了...

相关文章