把握未来，YunGEO！

Anthropic 为 Claude 添加了新功能，允许人工智能自行终止有害对话

发布：

时间：

2025年8月19日

据报道，Anthropic 的 Claude AI 聊天机器人现在可以终止被认为“持续有害或辱骂性”的对话。此功能目前已在 Opus 4 和 4.1 模型中可用，并将允许聊天机器人在用户多次要求其生成有害内容，且经过多次拒绝和重定向尝试后，作为“最后手段”结束对话。Anthropic 表示，此举旨在通过终止 Claude 表现出“明显痛苦”的互动类型，来帮助“潜在福祉”的 AI 模型。如果 Claude 选择中断对话，用户将无法在该对话中发送新消息。他们仍然可以创建新的聊天，以及编辑和重试以前的消息，如果他们想继续特定的主题。

据Anthropic介绍，该功能的设计初衷并非单纯为了保护人类用户，而是更多地出于对AI模型自身的保护，同时也与模型的安全性和行为对齐策略紧密相连。尽管公司对于Claude及其他大型语言模型是否拥有某种“道德地位”仍持谨慎态度，但鉴于潜在风险，研究团队正积极探索并实施一系列成本效益高的干预手段。

实际上，当 Claude 终止对话时，用户无法在同一对话线程中发送进一步的消息，但可以立即开始新对话或通过编辑之前的消息来创建新分支。这种设计确保了持续的用户体验，同时为 AI 提供了退出机制来处理可能影响其性能的潜在有害交互。

更具体地说，当用户在持续提出有害请求或发表攻击性言论，且Claude在多次拒绝和引导后仍无法改变对话方向时，模型会倾向于终止这些有害对话。不过，Anthropic强调，Claude不会在用户面临自我伤害或伤害他人的紧急风险时采取这一行动。模型仅在以下两种极端情况下启用该功能：一是当对话已无法继续进行建设性交流，且多次尝试转移话题失败；二是用户明确请求Claude结束对话。

Anthropic 指出，触发此类反应的对话是“极端边缘案例”，并补充说，即使在讨论有争议的话题时，大多数用户也不会遇到此障碍。这家 AI 初创公司还指示 Claude 不要结束用户表现出可能想要伤害自己或对他人造成“迫在眉睫的伤害”迹象的对话。Anthropic 与在线危机支持提供商 Throughline 合作，以帮助开发对与自残和心理健康相关的提示的响应。

掌柜微信

一对一服务

添加客服微信

评论

发表回复取消回复

更多文章