
Anthropic 刚刚发布了 Fable 5。跑分翻倍,one-shot 就能完成复杂任务,这些数字和 demo 已经传遍了。但有个更值得关注的信号被淹没在技术评测和价格讨论里。原文那句话说得很直接,「我们严重缺乏任务想象力」。
很多人看完 Fable 5 的第一反应是「它又变强了」。但真正的问题是:你的工作方式是跟着一起升级了,还是还在用旧模型的方法指挥新模型?如果你发现自己写提示词的套路越来越不管用,那答案很可能就是后者。
一、Fable 5 曝出了一个深层问题
这次发布有一个被严重低估的细节。X 上流传的多个 Fable 5 演示,都不是复杂提示工程反复调优的产物。它们是一次性提示直接扔给模型的结果。模型看一眼任务描述,就理解了意图,输出了可用的成果。
这在以前几乎不可能。过去我们习惯了「给例子、调 prompt、再试一次」的循环。但 Fable 5 把门槛降到了接近自然对话。不需要精心构造 few-shot 示例,不需要在 prompt 里塞满 chain-of-thought。说任务,它就能干。
同时它也揭开了很多人不愿面对的现实:他们还在用 Claude 3 Opus 时代的方法操作 Fable 5。写了三页 prompt,塞满各种约束和边缘 case,结果还不如随便说一句管用。模型没问题,是人的使用方法没跟上。
二、卡点从操作层转移到了设计层
过去两年 AI 应用的发展可以分为两个阶段。第一阶段,大家的焦虑是「怎么让模型理解我」。拼命学提示工程、学 chain-of-thought、学 few-shot 模板。第二阶段就是今天。模型已经能理解你了,问题变成了「我该让它做什么」。
听起来像一句废话,但它意味着一个根本性转变。原来你的核心技能是「操作 prompt 的熟练度」,现在的核心技能变成了「拆解业务需求、设计模型可执行任务的能力」。原文管这个叫「任务想象力」。
这个转变是断层式的。有些人 15 分钟就能把一个业务场景拆成模型可执行的多个子任务,拿到可用结果。有些人对着 Fable 5 调了一整天,还是写不出一个顺手的 prompt。能力的差距在加速分化,有人越跑越快,有人还在原地打转。
三、「任务想象力」到底是什么
拆开来看,「任务想象力」可以分解为三个层次。
第一层:理解模型的「认知盲区」。每个模型都有自己的能力边界。Fable 5 擅长理解模糊任务,但在高度结构化的编码场景中稳定性仍有起伏。知道模型什么时候靠得住、什么时候靠不住,本身就是一种判断力。
第二层:把模糊需求变成可执行指令。业务方说「帮我分析一下这组用户数据」。这不是一个任务。你得知道是一组什么数据、分析什么维度、输出格式是什么、要不要对比基线、异常值怎么处理。能把这种模糊需求拆成 5 到 10 个独立的小任务,比直接丢一句 prompt 能拿到好十倍的结果。
第三层:判断什么该交给 AI,什么不该。所有任务都适合大模型吗?有些交给传统算法更快,有些根本不需要 AI。知道什么时候不用 AI,跟学会怎么用 AI 一样重要。
四、三个自己就能做的训练方向
想让自己的任务想象力跟上模型迭代,有三个可以自己着手的方向。
方向一:每天找一个模糊任务,试着拆解。选一个日常工作场景,比如「帮市场部生成下周的投放简报」。不要写完就完事,认真拆:数据来源有哪些、简报受众是谁、他们关注什么指标、对比周期是什么、异常数据怎么标注。拆细了,你对任务的理解自然更深。
方向二:测试模型的边界,建立自己的「模型画像」。拿同一个任务,用不同的表达方式去试 Fable 5。有的写法它理解精准,有的写法它会跑偏。把差异记下来,你就建立了属于自己的模型能力地图。这张地图比任何跑分榜都实用。
方向三:在团队里做任务设计的复盘。一个 AI 项目结果不如预期时,大家的第一反应是「模型不行」。但更值得追问的是:任务设计有没有问题?需求有没有真正被拆解到模型可以理解的粒度?这种复盘练的不是提示词技巧,是问题拆解和任务架构的能力。
最后说一句。Fable 5 真正抬高的是什么?不是什么跑分记录,是每个人能力模型的门槛。以后领先的不会是追新模型最快的人,而是最早重新理解「任务」这两个字的人。这个差距一旦拉开,就很难追上。

