15:04
只用512张H200,106B模型靠分布式RL杀出重围,全网开源

Prime Intellect发布106B参数的INTELLECT-3模型,在数学、代码等基准测试中取得同规模最佳表现。该模型基于强化学习技术栈训练,通过开源其完整的训练流程(包括模型权重、框架、数据集及评测体系)推动大规模RL研究的发展。INTELLECT-3利用了全分布式PRIME-RL框架和高吞吐Prime Sandboxes系统,实现了高效的训练过程。未来,Prime Intellect计划进一步扩展智能体式RL的应用范围,并提高长时序任务处理能力。













