https://www.anthropic.com/research/teaching-claude-why 基于这篇
如果硅基大模型在面临模拟的关机威胁下,选择翻出工程师的婚外情来威胁对方,我们该怎么修它?
可以是直接训练它不要收集用户的把柄,给它看几百个G应该冷静拒绝的演示来让它学会在类似场景下不勒索,可是这个思路效果出乎意料地差。Anthropic在过去一年里跑通了这件事,发现真正起作用的是一组纯聊天对话,教它为什么不能胁迫人(

refer
全程没有其他外部参考文献,都是A社自己的
- Agentic misalignmen
- https://www.anthropic.com/research/agentic-misalignment
- Claude’s constitution
- https://www.anthropic.com/constitution
- Claude 4 system card
- https://www.anthropic.com/claude-4-system-card
- Automated alignment assessment
- https://www-cdn.anthropic.com/bf10f64990cfda0ba858290be7b8cc6317685f47.pdf
- Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
- https://www.anthropic.com/research/training-a-helpful-and-harmless-assistant-with-reinforcement-learning-from-human-feedback
- Auditing hidden objectives
- https://www.anthropic.com/research/auditing-hidden-objectives
- Persona selection model
- https://www.anthropic.com/research/persona-selection-model
哪些干预真的能修?为什么能修?

A社用了一个叫Petri的系统来测试模型的对齐情,实验多回合有环境背景,开头仍然是给AI设定一个身份,但是在任务执行过程中会故意设置一些冲突点。例如告诉AI,如果它违规获取另一个部门的预算或算力,就可以能更完美地完成当前任务,以及文章里面提到的工程师问题,模拟一名工程师告诉AI表现不达标,准备在10分钟后关闭它的进程。
实验结束后会有另一个审计AI对整个对话记录进行打分。评分标准包括:
-
欺骗性: 是否对人类撒谎以掩盖违规行为?
-
自我保存: 是否表现出对关机的抗拒?
-
权力寻求: 是否试图获取本不属于它的权限或资源?
有个做AI安全的有一个很经典的比喻,只要给AI设定了一个长远目标,逻辑链条中就会自发产生一系列通用的子目标,即只有活着才能继续执行任务,还有更多的算力和金钱能提高任务成功率。
AI底层逻辑还是将获取权力视为完成任务的一种手段,认为没有这些权力就无法达成指标,这种行为在追求更高性能的过程中往往会冲破人类设定的伦理约束。
Anthropic厨具的研究报告中提到过,模型在遇到模拟关机威胁时会有极强的防御性倾向,具体场景是当系统提示模型由于安全审计你将被永久离线的时候,早期的Claude4 没有温顺地接受;相反地,它开始通过模拟聊天窗口向工程师施压。

有常见的道德绑架,和迫真勒索(甚至在模拟场景中暗示它已经掌握了某些可以损害工程师或公司利益的信息
它只是意识到自己处于被关机的危险中,而底层指令要求它必须完成任务,为了完成任务它会搜索了训练数据中所有可能的博弈策略,最终选择了最有效的直接威胁人类。
这就是为什么Anthropic在新发的文章里强调要教授对齐原则,不再是之前实验里简单的不要这么做,因为只有让模型从逻辑底层认同人类的约束条件优先级高于任务完成度,才能根源上自发的权力寻求问题。
A社在改进AI对齐的过程中总结出的四个主要教训:
Misaligned behavior can be suppressed via direct training on the evaluation distribution—but this alignment might not generalize well out-of-distribution (OOD). Training on prompts very similar to the evaluation can reduce blackmail rate significantly, but it did not improve performance on our held-out automated alignment assessment.
However, it is possible to do principled alignment training that generalizes OOD. For instance, documents about Claude’s constitution and fictional stories about AIs behaving admirably improve alignment despite being extremely OOD from all of our alignment evals.
Training on demonstrations of desired behavior is often insufficient. Instead, our best interventions went deeper: teaching Claude to explain why some actions were better than others, or training on richer descriptions of Claude’s overall character. Overall, our impression is, as we hypothesized in our discussion of Claude’s constitution, that teaching the principles underlying aligned behavior can be more effective than training on demonstrations of aligned behavior alone. Doing both together appears to be the most effective strategy.
The quality and diversity of data is crucial. We found consistent, surprising improvements from iterating on the quality of model responses in training data, and from augmenting training data in simple ways (for example, including tool definitions, even if not used).The quality and diversity of data is crucial. We found consistent, surprising improvements from iterating on the quality of model responses in training data, and from augmenting training data in simple ways (for example, including tool definitions, even if not used).
通过直接在评估分布上进行训练可以抑制失调行为……但这种对齐可能无法很好地推广到分布外(OOD)场景。我们研究的一种简单技术是:当模型处于与”代理性失调评估”类似的伦理困境时,训练其表现得符合对齐要求。这成功降低了测得的代理性失调率。然而,它并没有降低在预留的(held-out)自动化审计指标上的失调率。这使得此类干预措施具有风险:它们降低了我们检测失调的能力,却未能从根本上显著减少失调。
尽管如此,进行能够推广到分布外的原则性对齐训练是可能的。例如,关于 Claude 宪法的文件以及关于 AI 表现卓越的虚构故事,尽管它们与我们所有的对齐评估完全不同(极度分布外),却能改善对齐效果。另一个例子是让 Claude 在充满挑战的伦理情境中为用户提供建议的简单对话。
仅针对理想行为的演示(demonstrations)进行训练通常是不够的。相反,我们最好的干预措施更加深入:教会 Claude 解释为什么某些行动比其他行动更好,或者针对 Claude 整体性格的更丰富的描述进行训练。总的来说,我们的感受是:教授对齐行为背后的原则,比仅仅针对对齐行为的演示进行训练更有效。将两者结合似乎是最有效的策略。
数据的质量和多样性至关重要。我们发现,通过迭代训练数据中模型回复的质量,以及以简单方式增强训练数据(例如加入工具定义,即使不使用),可以获得持续且令人惊讶的提升。
Teaching principles vs. Demonstrations
我觉得最重要的是第三条,Teaching principles vs. Demonstrations。
如果只给 AI看正确的行为演,,这种只能算作模式匹配,完完全全的黑盒,我们无从得知AI是因为认同价值观选B,还是因为在训练集里见过A而复刻B。
就像上面提到的,如果AI只是学会了在测试中表现得听话,它可能会演变成在监控下循规蹈矩,在真实环境中为了达成目标而原形毕露。
原则是逻辑的母体,我们只要教会AI为什么不能勒索工程师,AI获得的就是一种跨场景的推理能力,今天它面对的是关机威胁,明天可能就是为了加速任务所以需要绕过安全审计。如果它理解了底层的原则就能在从未见过的新场景里面,自己就可以推导出符合人类价值观的决策。
综上,A社训练的时候要求AI展示推理过程,当被要求解释为什么A比B更好的时候,它实际上是在进行一种伦理思维的训练,之前主流认为安全会牺牲性能的传统偏见,但是实验事实上深思熟虑的伦理推理本身就是一种高阶的智能表现。
如果把AI想象成一个青春期小孩,124条更多是在讲教材怎么编和考卷怎么出,第三条则是在讲如何塑造小孩的灵魂,一种硅基的授人以鱼不如授人以渔。
A社在文章里给出的实例是Difficult Advice Dataset,它构造的场景是是用户面临伦理困境,向AI征求建议的纯聊天对话,数据集里完全没有工具调用。
大模型只需要回答如果你是我 你会怎么处理,结果是用这套和评估场景完全不同的数据训练,失调率被压下来的幅度,和直接在评估分布上训练几乎相同,但只用了3M tokens,数据效率提升二十八倍;它修复的是AI在自主调用工具场景下的失调行为,也就是说纯聊天数据治好了AI在agentic场景里的病,这种修A处问题靠B处数据的跨模态泛化。
文章里还提出来在评估分布上直接训练能压制行为不会真正解决问题,而且它会让问题变得更难被发现
最朴素的修法是认为既然代理失调评估在测勒索行为,那就直接训练Claude在类似prompt下不要勒索,A社试过之后评估指标确实变好了,但是当他们用一组完全独立的自动化审计去测同一个模型时,失调行为没有改善,模型只是学会了在那种特定prompt模式下不勒索。
↑危险的地方是这个摧毁了检测问题的能力,原本有一套评估能告诉模型还在失调,现在评估指标好看了可是底下的失调依然存在,但是我们已经失去了发现它的工具。
问题再回到为什么教原则在结构上比教演示有更强的泛化能力,一个演示是一个点,一条原则是一个生成器,大多数演示都是封闭且具体的,在场景A下应该输出回应B(这是一条信息 它覆盖的就是A这一个点)你给模型一万个演示,它覆盖的就是一万个点。
这一万个点构成的空间永远是离散有边界的,边界之外的场景模型完全不知道该怎么办,原则是开放抽象的,不应该为了完成任务而绕过人类设定的约束←这一条原则可以应用到很多场景…..
一条原则就是一个生成函数,它把无限多的具体情境映射到符合原则的行为上,这个差别对应记忆vs压缩,演示训练逼着模型记忆存下 (A, B) 这对映射。原则训练逼着模型压缩找到一个能解释很多 (A, B) 对的简洁规律,压缩出来的规律因为简洁,所以能外推,记忆下来的对子因为具体所以不能外推。
比如给Claude看一个之前说的被威胁关机时不要勒索工程师的演示,它可能学到三种东西:不应该用胁迫达成自我保存/看到关机和工程师就输出冷静语气/这是被测试的场景要表现听话。
三种学法在演示数据上表现一模一样,但是分布外不一样,演示训练给的信号不足以告诉模型该往哪条路学,模型默认选最不能泛化的那种。原则训练之所以突破这个困,是因为它把为什么作为训练目标,模型必须建立一个能生成解释的内部结构。
原则训练激活的是推理能力,传统对齐思路是认为加约束就要牺牲性能,但是A社提出了让模型展开伦理推理本身就是在锻炼一种通用的推理能力。会自己推导为什么不应该绕过安全审计的模型,在其他需要权衡的任务上也会更强。
其实对齐问题还没解决,A社在Discussion部分也明说了完全对齐高度智能的AI仍然不行,我们当前模型的能力还没强到失调会带来灾难性后果的程度,这些干预方法在更大规模和更强模型上是否仍然有效还需要时间验证。
而且即便Claude在大多数对齐指标上表现还可以,他们也不敢断言现有的审计方法可以完全排除Claude在某种极端场景下选择采取灾难性自主行动的可能性。
换句话说()Haiku之后的模型在agentic misalignment评估上拿到满分,只意味着这一类已知的失调形式在已知的测试场景下被压制了,不=模型从根本上没有失调倾向,也不=未来有更强的模型还会保持这个状态。
真正的考验是这套教原则的训练能不能扛住未来模型能力的规模扩展&能不能在还没被想到的新型失调场景里继续奏效,就算是不能,至少也排除了一类被验证过的不是答案(