华为新架构砍了Transformer大动脉!任意模型推理能力原地飙升

1个月前发布 jovi
7 0 0

华为新架构砍了Transformer大动脉!任意模型推理能力原地飙升

华为诺亚方舟实验室提出Nexus架构,通过高阶注意力机制有效解决了Transformer在复杂逻辑推理任务中的不足。该架构在不增加参数量的情况下,显著提升了模型的推理能力。实验显示,无论是小模型还是大模型,采用Nexus后,在数学和科学等需要多步推理的任务上均有明显性能提升,展示了其在提升AI推理能力方面的巨大潜力。

来源:量子位

© 版权声明
广告也精彩

相关文章

没有相关内容!