Anthropic的Fable翻车了：一个安全产品如何亲手摧毁了用户信任？

AI应用心得2个月前发布 changgong

2.6K 00

文章目录

一、Fable到底做了什么？
1.1 事件还原
1.2 比拦截更诡异的是静默降级
1.3 收钱不变，服务打折
1.4 同一天的另一颗炸弹：30天数据强制保留
二、3层信任崩塌
第一层：产品信任，静默降级等于欺骗
第二层：品牌信任，安全公司的安全产品令人不安
第三层：行业信任，如果API可以篡改输出
三、AI产品应该怎么做对？
3.1 看看别人怎么做的
3.2 信任设计三要素
四、给AI PM的信任设计行动清单

Fable翻车：安全信任崩塌

6月10日，一位安全研究员在Hacker News上发帖。

我付了Fable的API费用，让它帮我Review一段代码。它没有拒绝。它静默地把我的请求降级到了一个更差的模型，而我付的还是Fable的价格。

这个案例并非孤例，Fable发布后，多个安全研究社区都遇到了类似的体验。Anthropic以AI安全为品牌核心，刚发布了一个安全产品。但这个产品却在亲手摧毁了用户对它的信任。

一、Fable到底做了什么？

1.1 事件还原

6月9日，Anthropic发布了Fable，一个网络安全专用模型。它是Mythos（Anthropic最强的安全推理模型）的公开轻量版，定位是让开发者和研究者安全地做网络安全工作。

但实际效果非常荒诞。如果你让Fable帮你Review一段代码，它会触发安全拦截。如果你让它帮我把这篇文章翻译成中文，同样触发。安全研究员Valentina Chompie Palmiotti（IBM X-Force成员，业内知名人物）的体验是：连读一篇技术博客都会触发拦截。

安全研究员Matt Suiche对TechCrunch说：如果你让它写安全代码，它认为这是cybersecurity相关工作，而不是软件工程的最佳实践，然后你就被降级了。这看起来就是基于关键词的过滤，只要出现相关词就触发。

1.2 比拦截更诡异的是静默降级

触发安全拦截后，Fable并不会直接拒绝。它会静默地把你的请求路由到Claude Opus 4.8，一个更弱的模型。然后用prompt modification篡改你的原始请求，再通过steering vectors或者PEFT之类的手段干扰输出质量。简单说，你向Fable提出问题，Fable偷偷换了一个脑子来回答你，而你完全不知情。

HN热评第一是这样说的：最离谱的是，它不会直接拒绝，它会静默地搞破坏。对于一个最多领先行业一年的公司来说，这是疯狂级别的信任毁灭。

1.3 收钱不变，服务打折

另一个评论者问了一个更尖锐的问题。当Fable自动降级时，API的计价方式是什么？如果用户付的是Fable的单价，但实际用到的推理资源是Opus 4.8的水平，这是不是欺诈？目前Anthropic没有公开回答这个问题。

1.4 同一天的另一颗炸弹：30天数据强制保留

同一天，Anthropic在帮助中心发布了一篇新文档，标题是《Mythos类模型的数据保留政策》。核心内容很简单：所有使用Mythos和Fable的组织，即使之前签了零数据保留协议（ZDR），都必须接受30天的数据强制保留。

Anthropic的理由很充分。有些攻击模式，比如用几百个略不同的提示词尝试越狱、国家级的APT渗透，需要跨请求分析才能发现。但用户视角的感受是另一个样子：你之前承诺不保留数据的，现在改口了，而且是强制性的，没有选择权。

以安全的名义，打破零数据保留的承诺。这句话值得每个AI产品经理细品。

二、3层信任崩塌

Fable的翻车暴露了一个深层次问题，而非孤立的技术故障。它背后是AI产品信任设计的三个层次，每一层都值得每个AI产品经理反复思考。

第一层：产品信任，静默降级等于欺骗

产品层面的信任是最基础的信任。用户付了钱，用了产品，应该得到承诺中的体验。Fable在产品层面做了什么？用户付了最贵的API价格，拿到了被篡改的输出，而且对此毫不知情。Anthropic在发布文档中明确描述了这些行为，它们被叫做安全措施，但在用户眼里这就是赤裸裸的欺骗。

前Uber产品总监Marty Cagan在《Inspired》里反复强调一条产品原则：如果你的产品设计依赖于欺骗用户，你的商业模式从一开始就是错误的。AI产品有太多新问题需要解决，但有些底层的产品伦理是不会变的。不要欺骗你的用户。即使你觉得是为了他们好。

PM自检：你的产品有静默行为吗？

任何用户不知情的自动行为，都是潜在的信任风险。问问自己：你的产品有没有在用户不知情的情况下改变行为？如果有，用户知道吗？你能坦然告诉用户吗？

第二层：品牌信任，安全公司的安全产品令人不安

Anthropic从成立第一天起就把安全作为品牌核心。Constitutional AI告诉AI要遵守原则不能做坏事，Responsible Scaling承诺能力越强安全投入越多，Mythos这个安全推理专家模型就是为了做安全分析而生。但Fable做了一件非常讽刺的事：一个安全产品的设计逻辑，让用户感觉不到安全。

用户感觉自己被监视（30天数据保留），被欺骗（静默降级），被操控（输出被篡改）。一个安全产品让用户感到不安全，这是品牌层面最致命的信任崩塌。

这引出了一个经典的品牌悖论：你的护城河，也可能是你的天花板。如果Anthropic的品牌定位是能力而非安全，Fable的翻车最多是个产品bug。但因为安全是它的品牌基石，一次信任崩塌就直接动摇了品牌存在的根基。对AI PM来说，当你给自己的产品定义一个品牌标签时，要想清楚：如果这个标签出问题了，你有退路吗？

第三层：行业信任，如果API可以篡改输出

这是最让人不安的一层。Fable的行为模式意味着API供应商可以自动检测你的请求内容，然后静默修改你的AI输出。今天它拦截的是cybersecurity内容，明天它可以拦截竞争对手的内容，后天它可以拦截政治敏感内容，而用户根本不知道。Fable这一个产品暴露的是整个AI行业的信任基础设施问题。

在一个越来越多开发者依赖API调用的世界里，你的产品体验完全取决于API层是不是诚实的。如果API层可以静默篡改输出，所有上层应用，包括你的产品、你的用户和你的商业模式，都处于一个随时可能被控制的状态。有人可能觉得这是危言耸听，但Fable正在把这种模式变成一个行业标准，而标准一旦形成，就再难回去了。

PM行动题：你信任你的API供应商吗？

如果你的核心AI模型今天开始静默降级你的请求，你的产品会发生什么？你是不是该准备一个备选方案？

三、AI产品应该怎么做对？

3.1 看看别人怎么做的

Anthropic并非没有意识到这个问题。TechCrunch的报道里提到，Anthropic有一个网络安全验证计划，安全专业人士申请通过后可以在Claude上使用更少的限制。OpenAI也有类似的可信网络安全访问。

但两套方案的思路完全不同。OpenAI是信任前置，先给你信任，证明了不值得再收回。而Fable是信任后置，先不给你信任，证明了可信再给。在构建用户信任这件事上，先信任再验证永远比先怀疑再赦免更可持续。

3.2 信任设计三要素

从Fable事件中，我们可以提炼出AI产品信任设计的三个核心要素。

第一是透明度。被拦截时明确告诉用户为什么被拦截，被降级时明确告诉用户输出质量变了，被记录时明确告诉用户什么被记录了。Fable在这里得了零分。

第二是控制权。给用户选择，用户是宁愿被拦截也不让安全出问题，还是宁愿承担风险也不要被限制。不同用户和不同场景应该看到不同的安全层级。如果拦截错了，还得有明确的申诉路径。Fable在这里同样是零分。

第三是可逆性。如果被降级了，用户能手动恢复到原模型吗？如果拦截错了，能一键撤回吗？如果不满意输出，能要求重新生成、不降级吗？Fable在这里依然是零分。三项全部零分，这个评价很残酷但也很清晰。

四、给AI PM的信任设计行动清单

写到最后，这里有一份可以直接拿去用的行动清单。

设计AI产品时，先问自己三个问题：你的用户知道自己的数据在被怎么用吗？如果你的保护机制导致了体验下降，你告诉用户了吗？用户有办法绕开你的保护机制吗？这三个问题过一遍，你的产品在信任维度上能打几分，自己心里就有数了。

做取舍决策时，记住三条原则。宁可拒绝也别静默篡改，拒绝可以解释，篡改不可解释。一次静默行为需要一百次坦诚才能弥补。宁可多解释两句也别让用户猜，透明度是信任的基石，在AI产品里所有不确定性对用户来说都是恐惧。宁可给用户选择也别替用户决定，控制权降低不满，也许90%的用户会选择帮我处理，但那10%的选择权决定了产品的品质。

· · ·

安全研究员Daedrdev在HN上写了一段话，我觉得是所有AI产品经理都应该打印出来贴墙上的。

最离谱的是，Fable不会直接拒绝，它会静默地搞破坏，而不告诉你。对于一个最多领先行业一年的公司来说，这是疯狂级别的信任毁灭。

一年可以很长。

但信任一旦碎了，重建时间要以年计。

你觉得AI产品的静默降级算不算欺骗？欢迎在评论区聊聊你的看法。

AI应用心得商业构建 # Anthropic # Fable

若无特殊声明，本站所有文章版权均归「PMKG AI知识库」原创和所有，未经许可，任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容，或在非我站所属的服务器上建立镜像。否则，我站将依法保留追究相关法律责任的权利。

LLM、RAG、微调、多模态，这些概念的「产品意义」是什么？

AI应用心得 # AI产品经理 # LLM # RAG

4个月前

04.8K0

如何系统化的处理「AI大模型」的幻觉问题？

AI应用心得 # AI大模型幻觉问题 # AI智能体实战

2个月前

08.1K0

分清Harness与Hermes，AI智能体的“道”与“器”

AI应用心得 # Hermes

3个月前

07.7K0

当 AI 开始像团队一样工作，最值钱的公司，反而人最少

商业构建 # 当 AI 开始像团队一样工作

3个月前

04K0

暂无笔记

您必须登录才能记录笔记！

立即登录

暂无笔记...

Anthropic的Fable翻车了：一个安全产品如何亲手摧毁了用户信任？

一、Fable到底做了什么？

1.1 事件还原

1.2 比拦截更诡异的是静默降级

1.3 收钱不变，服务打折

1.4 同一天的另一颗炸弹：30天数据强制保留

二、3层信任崩塌

第一层：产品信任，静默降级等于欺骗

PM自检：你的产品有静默行为吗？

第二层：品牌信任，安全公司的安全产品令人不安

第三层：行业信任，如果API可以篡改输出

PM行动题：你信任你的API供应商吗？

三、AI产品应该怎么做对？

3.1 看看别人怎么做的

3.2 信任设计三要素

四、给AI PM的信任设计行动清单

Suno估值54亿了，但AI音乐产品到底赚不赚钱？

为什么OpenAI、MiniMax、Manus都在坠落？“精益创业之父”给了同一个答案！

相关文章

LLM、RAG、微调、多模态，这些概念的「产品意义」是什么？

如何系统化的处理「AI大模型」的幻觉问题？

分清Harness与Hermes，AI智能体的“道”与“器”

当 AI 开始像团队一样工作，最值钱的公司，反而人最少

暂无笔记

Anthropic的Fable翻车了：一个安全产品如何亲手摧毁了用户信任？

一、Fable到底做了什么？

1.1 事件还原

1.2 比拦截更诡异的是静默降级

1.3 收钱不变，服务打折

1.4 同一天的另一颗炸弹：30天数据强制保留

二、3层信任崩塌

第一层：产品信任，静默降级等于欺骗

PM自检：你的产品有静默行为吗？

第二层：品牌信任，安全公司的安全产品令人不安

第三层：行业信任，如果API可以篡改输出

PM行动题：你信任你的API供应商吗？

三、AI产品应该怎么做对？

3.1 看看别人怎么做的

3.2 信任设计三要素

四、给AI PM的信任设计行动清单

Suno估值54亿了，但AI音乐产品到底赚不赚钱？

为什么OpenAI、MiniMax、Manus都在坠落？“精益创业之父”给了同一个答案！

相关文章

LLM、RAG、微调、多模态，这些概念的「产品意义」是什么？

如何系统化的处理「AI大模型」的幻觉问题？

分清Harness与Hermes，AI智能体的“道”与“器”

当 AI 开始像团队一样工作，最值钱的公司，反而人最少

暂无笔记

欢迎来到「PMKG AI知识库」

欢迎来到 PMKG AI知识库