一夜200万阅读,OpenAI神同步,这项测评框架让全球顶尖LLM全翻车

2个月前发布 jovi
4 0 0

一夜200万阅读,OpenAI神同步,这项测评框架让全球顶尖LLM全翻车

中国团队领衔全球24所顶尖机构发布《Evaluating LLMs in Scientific Discovery》论文,推出LLMs for Science首套评测体系SDE,直指现有模型在科学发现领域的不足。研究表明,当前大语言模型如GPT-5、Claude-4.5等在科学研究中的表现远低于预期,暴露了多步推理和实验分析能力的短板。该论文引发了全球AI领域的广泛关注,重新定义了AI助力科学发现的标准。

🔗 [认知原点]:https://36kr.com/p/3640002177387650

来源:36氪

© 版权声明
广告也精彩

相关文章

没有相关内容!