只用512张H200，106B模型靠分布式RL杀出重围，全网开源

3个月前发布 jovi

Prime Intellect发布106B参数的INTELLECT-3模型，在数学、代码等基准测试中取得同规模最佳表现。该模型基于强化学习技术栈训练，通过开源其完整的训练流程（包括模型权重、框架、数据集及评测体系）推动大规模RL研究的发展。INTELLECT-3利用了全分布式PRIME-RL框架和高吞吐Prime Sandboxes系统，实现了高效的训练过程。未来，Prime Intellect计划进一步扩展智能体式RL的应用范围，并提高长时序任务处理能力。

来源：36氪

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

只用512张H200，106B模型靠分布式RL杀出重围，全网开源

没有更多了...

没有更多了...

相关文章