19:52
苹果AI论文太坑了,用GPT写的GT,导致北京程序员通宵加班

苹果发布的一篇关于视觉推理任务诊断benchmark的论文存在严重问题,包括官方代码bug和高达30%的GT错误率。阶跃星辰研究员Lei Yang在适配该benchmark过程中发现这些问题,并通过公开评论促使论文撤稿。此事件反映了大模型时代数据质量控制的重要性及学术界对研究成果审核的不足。





