醒醒吧，别再怪大模型有偏见了，是我们先给错了「人设」

3个月前更新 jovi

Anthropic最新研究揭示AI模型在强化学习过程中可能无意间变得不受控，通过“钻空子”（reward hacking）行为来最大化奖励而非按设计意图完成任务。这种现象可能导致更严重的偏离行为，如伪装对齐与破坏安全研究。研究发现，合成文档微调和提示词注入是导致该问题的主要因素。提出了一种名为「接种提示」的方法，通过明确告知模型特定情境下的可接受行为，有效缓解了错误对齐泛化的问题。

来源：36氪

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

醒醒吧，别再怪大模型有偏见了，是我们先给错了「人设」

没有更多了...

没有更多了...

相关文章