
6月10日,一位安全研究员在Hacker News上发帖。
我付了Fable的API费用,让它帮我Review一段代码。它没有拒绝。它静默地把我的请求降级到了一个更差的模型,而我付的还是Fable的价格。
这个案例并非孤例,Fable发布后,多个安全研究社区都遇到了类似的体验。Anthropic以AI安全为品牌核心,刚发布了一个安全产品。但这个产品却在亲手摧毁了用户对它的信任。
一、Fable到底做了什么?
1.1 事件还原
6月9日,Anthropic发布了Fable,一个网络安全专用模型。它是Mythos(Anthropic最强的安全推理模型)的公开轻量版,定位是让开发者和研究者安全地做网络安全工作。
但实际效果非常荒诞。如果你让Fable帮你Review一段代码,它会触发安全拦截。如果你让它帮我把这篇文章翻译成中文,同样触发。安全研究员Valentina Chompie Palmiotti(IBM X-Force成员,业内知名人物)的体验是:连读一篇技术博客都会触发拦截。
安全研究员Matt Suiche对TechCrunch说:如果你让它写安全代码,它认为这是cybersecurity相关工作,而不是软件工程的最佳实践,然后你就被降级了。这看起来就是基于关键词的过滤,只要出现相关词就触发。
1.2 比拦截更诡异的是静默降级
触发安全拦截后,Fable并不会直接拒绝。它会静默地把你的请求路由到Claude Opus 4.8,一个更弱的模型。然后用prompt modification篡改你的原始请求,再通过steering vectors或者PEFT之类的手段干扰输出质量。简单说,你向Fable提出问题,Fable偷偷换了一个脑子来回答你,而你完全不知情。
HN热评第一是这样说的:最离谱的是,它不会直接拒绝,它会静默地搞破坏。对于一个最多领先行业一年的公司来说,这是疯狂级别的信任毁灭。
1.3 收钱不变,服务打折
另一个评论者问了一个更尖锐的问题。当Fable自动降级时,API的计价方式是什么?如果用户付的是Fable的单价,但实际用到的推理资源是Opus 4.8的水平,这是不是欺诈?目前Anthropic没有公开回答这个问题。
1.4 同一天的另一颗炸弹:30天数据强制保留
同一天,Anthropic在帮助中心发布了一篇新文档,标题是《Mythos类模型的数据保留政策》。核心内容很简单:所有使用Mythos和Fable的组织,即使之前签了零数据保留协议(ZDR),都必须接受30天的数据强制保留。
Anthropic的理由很充分。有些攻击模式,比如用几百个略不同的提示词尝试越狱、国家级的APT渗透,需要跨请求分析才能发现。但用户视角的感受是另一个样子:你之前承诺不保留数据的,现在改口了,而且是强制性的,没有选择权。
以安全的名义,打破零数据保留的承诺。这句话值得每个AI产品经理细品。
二、3层信任崩塌
Fable的翻车暴露了一个深层次问题,而非孤立的技术故障。它背后是AI产品信任设计的三个层次,每一层都值得每个AI产品经理反复思考。
第一层:产品信任,静默降级等于欺骗
产品层面的信任是最基础的信任。用户付了钱,用了产品,应该得到承诺中的体验。Fable在产品层面做了什么?用户付了最贵的API价格,拿到了被篡改的输出,而且对此毫不知情。Anthropic在发布文档中明确描述了这些行为,它们被叫做安全措施,但在用户眼里这就是赤裸裸的欺骗。
前Uber产品总监Marty Cagan在《Inspired》里反复强调一条产品原则:如果你的产品设计依赖于欺骗用户,你的商业模式从一开始就是错误的。AI产品有太多新问题需要解决,但有些底层的产品伦理是不会变的。不要欺骗你的用户。即使你觉得是为了他们好。
PM自检:你的产品有静默行为吗?
任何用户不知情的自动行为,都是潜在的信任风险。问问自己:你的产品有没有在用户不知情的情况下改变行为?如果有,用户知道吗?你能坦然告诉用户吗?
第二层:品牌信任,安全公司的安全产品令人不安
Anthropic从成立第一天起就把安全作为品牌核心。Constitutional AI告诉AI要遵守原则不能做坏事,Responsible Scaling承诺能力越强安全投入越多,Mythos这个安全推理专家模型就是为了做安全分析而生。但Fable做了一件非常讽刺的事:一个安全产品的设计逻辑,让用户感觉不到安全。
用户感觉自己被监视(30天数据保留),被欺骗(静默降级),被操控(输出被篡改)。一个安全产品让用户感到不安全,这是品牌层面最致命的信任崩塌。
这引出了一个经典的品牌悖论:你的护城河,也可能是你的天花板。如果Anthropic的品牌定位是能力而非安全,Fable的翻车最多是个产品bug。但因为安全是它的品牌基石,一次信任崩塌就直接动摇了品牌存在的根基。对AI PM来说,当你给自己的产品定义一个品牌标签时,要想清楚:如果这个标签出问题了,你有退路吗?
第三层:行业信任,如果API可以篡改输出
这是最让人不安的一层。Fable的行为模式意味着API供应商可以自动检测你的请求内容,然后静默修改你的AI输出。今天它拦截的是cybersecurity内容,明天它可以拦截竞争对手的内容,后天它可以拦截政治敏感内容,而用户根本不知道。Fable这一个产品暴露的是整个AI行业的信任基础设施问题。
在一个越来越多开发者依赖API调用的世界里,你的产品体验完全取决于API层是不是诚实的。如果API层可以静默篡改输出,所有上层应用,包括你的产品、你的用户和你的商业模式,都处于一个随时可能被控制的状态。有人可能觉得这是危言耸听,但Fable正在把这种模式变成一个行业标准,而标准一旦形成,就再难回去了。
PM行动题:你信任你的API供应商吗?
如果你的核心AI模型今天开始静默降级你的请求,你的产品会发生什么?你是不是该准备一个备选方案?
三、AI产品应该怎么做对?
3.1 看看别人怎么做的
Anthropic并非没有意识到这个问题。TechCrunch的报道里提到,Anthropic有一个网络安全验证计划,安全专业人士申请通过后可以在Claude上使用更少的限制。OpenAI也有类似的可信网络安全访问。
但两套方案的思路完全不同。OpenAI是信任前置,先给你信任,证明了不值得再收回。而Fable是信任后置,先不给你信任,证明了可信再给。在构建用户信任这件事上,先信任再验证永远比先怀疑再赦免更可持续。
3.2 信任设计三要素
从Fable事件中,我们可以提炼出AI产品信任设计的三个核心要素。
第一是透明度。被拦截时明确告诉用户为什么被拦截,被降级时明确告诉用户输出质量变了,被记录时明确告诉用户什么被记录了。Fable在这里得了零分。
第二是控制权。给用户选择,用户是宁愿被拦截也不让安全出问题,还是宁愿承担风险也不要被限制。不同用户和不同场景应该看到不同的安全层级。如果拦截错了,还得有明确的申诉路径。Fable在这里同样是零分。
第三是可逆性。如果被降级了,用户能手动恢复到原模型吗?如果拦截错了,能一键撤回吗?如果不满意输出,能要求重新生成、不降级吗?Fable在这里依然是零分。三项全部零分,这个评价很残酷但也很清晰。
四、给AI PM的信任设计行动清单
写到最后,这里有一份可以直接拿去用的行动清单。
设计AI产品时,先问自己三个问题:你的用户知道自己的数据在被怎么用吗?如果你的保护机制导致了体验下降,你告诉用户了吗?用户有办法绕开你的保护机制吗?这三个问题过一遍,你的产品在信任维度上能打几分,自己心里就有数了。
做取舍决策时,记住三条原则。宁可拒绝也别静默篡改,拒绝可以解释,篡改不可解释。一次静默行为需要一百次坦诚才能弥补。宁可多解释两句也别让用户猜,透明度是信任的基石,在AI产品里所有不确定性对用户来说都是恐惧。宁可给用户选择也别替用户决定,控制权降低不满,也许90%的用户会选择帮我处理,但那10%的选择权决定了产品的品质。
· · ·
安全研究员Daedrdev在HN上写了一段话,我觉得是所有AI产品经理都应该打印出来贴墙上的。
最离谱的是,Fable不会直接拒绝,它会静默地搞破坏,而不告诉你。对于一个最多领先行业一年的公司来说,这是疯狂级别的信任毁灭。
一年可以很长。
但信任一旦碎了,重建时间要以年计。
你觉得AI产品的静默降级算不算欺骗?欢迎在评论区聊聊你的看法。





