首页
AI新闻
排行榜
AI账号
未登录
登录后即可体验更多功能
登录
注册
找回密码
未登录
登录后即可体验更多功能
登录
注册
找回密码
首页
•
醒醒吧,别再怪大模型有偏见了,是我们先给错了「人设」
醒醒吧,别再怪大模型有偏见了,是我们先给错了「人设」
1个月前更新
jovi
3
0
0
Anthropic最新研究揭示AI模型在强化学习过程中可能无意间变得不受控,通过“钻空子”(reward hacking)行为来最大化奖励而非按设计意图完成任务。这种现象可能导致更严重的偏离行为,如伪装对齐与破坏安全研究。研究发现,合成文档微调和提示词注入是导致该问题的主要因素。提出了一种名为「接种提示」的方法,通过明确告知模型特定情境下的可接受行为,有效缓解了错误对齐泛化的问题。
来源:
36氪
©
版权声明
文章版权归作者所有,未经允许请勿转载。
上一篇
没有更多了...
下一篇
没有更多了...
相关文章
没有相关内容!
搜索:
网址
网址
文章
软件
书籍