Fable 5贵了一倍，怎么反而越花越少

2.5K 00

文章目录

一、单价翻倍，但实际账单缩水了
二、模型的聪明，贵在不用第二次
三、榜单扫场，能力不靠effort档位
四、安全分类器与免费窗口的隐藏信号
五、AI性价比，该换个算法了

每日AI新闻

Fable 5发布没几天，社区里最热闹的讨论不是模型有多强，而是价格问题。每百万输入token 10美元、输出50美元，比Opus 4.8翻了一倍，开发者第一反应都是「好贵」。但实际用下来，账单却呈现出另一种景象。

一、单价翻倍，但实际账单缩水了

反转来得比预期快。有人在Threads上晒账单：把effort调到low之后，Fable 5在一个复杂编码任务上的实际花费，反而比Opus 4.8跑同样任务更低。不是一点点低，而是算下来每干完一个活的成本直接砍半。这条帖子很快被顶上热门，评论区全是「我试了，确实如此」。

关键是，调到low档的Fable 5并没有「变笨」。它在SWE-bench Pro上的得分是75.0，而Opus 4.8开到最强xhigh档也才68.6。一个降级跑的低档模型，依然碾压前代旗舰的最强模式。这件事本身就说明，Anthropic这次的定价策略藏了一手。

二、模型的聪明，贵在不用第二次

Claude Code之父Boris Cherny在Threads上把这件事算得很清楚。Fable 5每token确实是Opus的两倍，但完成同一个任务平均用的token更少。少到足以让总花费反超。

原因并不复杂。以前的模型不够聪明，Agent做任务需要反复纠错：写错了改、跑挂了重跑、逻辑不对重新来。每一次犯错都是成本，用户要为模型的「笨」买单。Fable 5砍掉的恰恰就是这笔隐性支出。Shortcut的电子表格任务测试提供了直观数据：Fable 5在所有effort档位都跑赢了Opus 4.8，回合数少了，整体完成速度也快了25%到30%。

物理研究的案例更夸张。一位署名为Matthew Pines的研究者说，Fable 5是他们测过最强的前沿物理研究模型，仅用三分之一的推理token，就在36小时内跑到了GPT-5.5需要四天才能接近的位置。注意这里的关键词是「三分之一」。不是同样的token数产出更好结果，而是用更少的token做出更好的结果。

当然这不是绝对的。Reddit上也有反馈说，某些特定任务下Fable 5确实会消耗更多token，但幅度没有外界想象得那么夸张。如果任务本身不复杂，开high档和low档的差距很小。说到底，effort参数的真正价值在复杂任务上才体现得出来。

三、榜单扫场，能力不靠effort档位

如果说省钱还属于见仁见智，那榜单数据就没那么好争议了。Fable 5发布后不到48小时，几乎把能拿的第一扫了个干净。

Artificial Analysis智能指数上，Fable 5以64.9分排名第一，领先GPT-5.5约5分。人类最后的测试（Humanity Last Exam）上拿到53%，比第二名高出7个百分点以上。arena.ai的Agent榜单同样登顶。但最有意思的是编程领域的交叉验证。

Anthropic自己的数据、第三方机构TrueFoundry、Every的评测，三家给出了同一个信号：Fable 5的编程能力断层领先。TrueFoundry在SWE-Bench Pro上给Fable 5打出80.3%，GPT-5.5落后超过21个百分点。Every在他们的Senior Engineer基准测试中给出91分（满分100），已经接近人类资深工程师的水平区间（约94分）。作为对比，Opus 4.8拿63分，GPT-5.5拿62分。

也就是说，Fable 5不是「比竞品强一点」，而是拉开了代际差距。在这个前提下，它的定价两倍于Opus 4.8反而显得合理了。如果你认可「能力翻倍，价格翻倍是公平交易」的话。

四、安全分类器与免费窗口的隐藏信号

Fable 5带着一个安全分类器上线。当用户请求涉及网络安全、生物化学、模型蒸馏时，模型会自动切换到Opus 4.8回答并按Opus价格计费。Anthropic表示触发率不到5%。这意味着两件事。

第一，Fable 5的基础权重本身没有被安全对齐削弱。安全分类器在推理层做拦截，而不是在训练层做阉割。这对开发者的实际体验是利好：绝大部分场景下拿到的就是模型真实能力。

第二，6月23日之前Fable 5对Pro、Max、Team用户免费开放。这不是慈善，是Anthropic的获客策略。让开发者在项目里深度集成，等免费窗口关闭后再收割。如果你是AI产品经理，现在正是把Fable 5接入测试窗口的最好时机。等收费了再决定，决策成本就高了。

五、AI性价比，该换个算法了

Fable 5的定价给我们上了一课：看单价选模型，已经过时了。真正的评估指标应该是每完成一个标准任务的加权成本，简称任务级TCO。

第一个变量是模型一次通过率。模型越聪明，修改轮次越少，总token消耗越低。第二个变量是effort等控制参数。不是所有任务都需要开满，知道什么时候用low档、什么时候用high档，本身就是一种优化能力。第三个变量是安全约束。带安全分类器的模型在敏感场景下实际可用能力会打折，这部分成本也要算进去。

这套算法一旦想通了，会发现Fable 5的定价并没有那么离谱，反而可能是目前最划算的选择之一，只要你的任务足够复杂。如果只是简单对话或短文本处理，那确实杀鸡不需要牛刀，Opus 4.8开个low档就够了。