
据 报道,Anthropic 的 Claude AI 聊天机器人现在可以终止被认为“持续有害或辱骂性”的对话。此功能目前已在 Opus 4 和 4.1 模型中可用,并将允许聊天机器人在用户多次要求其生成有害内容,且经过多次拒绝和重定向尝试后,作为“最后手段”结束对话。Anthropic 表示,此举旨在通过终止 Claude 表现出“明显痛苦”的互动类型,来帮助“潜在福祉”的 AI 模型。如果 Claude 选择中断对话,用户将无法在该对话中发送新消息。他们仍然可以创建新的聊天,以及编辑和重试以前的消息,如果他们想继续特定的主题。
据Anthropic介绍,该功能的设计初衷并非单纯为了保护人类用户,而是更多地出于对AI模型自身的保护,同时也与模型的安全性和行为对齐策略紧密相连。尽管公司对于Claude及其他大型语言模型是否拥有某种“道德地位”仍持谨慎态度,但鉴于潜在风险,研究团队正积极探索并实施一系列成本效益高的干预手段。
实际上,当 Claude 终止对话时,用户无法在同一对话线程中发送进一步的消息,但可以立即开始新对话或通过编辑之前的消息来创建新分支。这种设计确保了持续的用户体验,同时为 AI 提供了退出机制来处理可能影响其性能的潜在有害交互。
更具体地说,当用户在持续提出有害请求或发表攻击性言论,且Claude在多次拒绝和引导后仍无法改变对话方向时,模型会倾向于终止这些有害对话。不过,Anthropic强调,Claude不会在用户面临自我伤害或伤害他人的紧急风险时采取这一行动。模型仅在以下两种极端情况下启用该功能:一是当对话已无法继续进行建设性交流,且多次尝试转移话题失败;二是用户明确请求Claude结束对话。
Anthropic 指出,触发此类反应的对话是“极端边缘案例”,并补充说,即使在讨论有争议的话题时,大多数用户也不会遇到此障碍。这家 AI 初创公司还指示 Claude 不要结束用户表现出可能想要伤害自己或对他人造成“迫在眉睫的伤害”迹象的对话。Anthropic 与在线危机支持提供商 Throughline 合作,以帮助开发对与自残和心理健康相关的提示的响应。


发表回复