一夜200万阅读，OpenAI神同步，这项测评框架让全球顶尖LLM全翻车

2个月前发布 jovi

中国团队领衔全球24所顶尖机构发布《Evaluating LLMs in Scientific Discovery》论文，推出LLMs for Science首套评测体系SDE，直指现有模型在科学发现领域的不足。研究表明，当前大语言模型如GPT-5、Claude-4.5等在科学研究中的表现远低于预期，暴露了多步推理和实验分析能力的短板。该论文引发了全球AI领域的广泛关注，重新定义了AI助力科学发现的标准。

🔗 [认知原点]：https://36kr.com/p/3640002177387650

来源：36氪

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

一夜200万阅读，OpenAI神同步，这项测评框架让全球顶尖LLM全翻车

没有更多了...

没有更多了...

相关文章