GPT-5-Thinking新训练方法公开：让AI学会忏悔

3个月前更新 jovi

OpenAI提出忏悔训练方法，让GPT-5-Thinking在回答问题后生成一份“忏悔报告”，主动承认错误或违规行为。实验表明，模型在11/12测试场景中至少有一半概率会坦白错误，且训练不会影响其原有任务表现。该技术通过隔离奖励信号来鼓励诚实，被视为一种监控和诊断工具，有助于提高大语言模型的透明度与安全性。