从阶跃Flash看Agent效率税,真实案例太扎心

每日AI快讯15小时前更新 changgong
255 00

每日AI新闻

你的AI Agent是不是感觉越来越跑不动了?

不是你一个人这么觉得。Cursor社区有人做过一个让人沉默的测试:智能体在执行顺序终端命令时,明明每个指令只需要10毫秒就完成了,但前后两条命令之间愣是插入了27秒的额外延迟。串行任务的效率损耗高达99.95%。你花了几倍的时间,模型跑得比你想的慢得多,账单当然也翻着倍地涨。

整个Agent行业正在面对一个结构性问题,业内有人给它起了个名字——效率税

一、Agent隐形成本,比模型订阅费要命得多

当大家还在纠结哪个模型benchmark分数更高的时候,最先被规模化卡住的团队已经发现,真正致命的问题根本不是模型不够聪明。

密歇根大学、斯坦福大学、微软和谷歌DeepMind今年4月联合发布了一份研究,结论让人坐不住:智能体在执行任务时需要反复灌入历史上下文,输入和输出的token消耗比例达到了154:1。你买了100个token,真正用于输出的只有1个不到,剩下的都喂给了上下文。

这不是个案。研究展示的是一个系统性现象,Agent的多轮调用机制天然就在放大会耗。每多一个任务拆解步骤、多一次工具调用、多一轮结果校验,Token就悄无声息地烧掉一大截。

二、三个扎心案例,浇醒所有乐观者

理论说再多不如看真实账单。近来的行业新闻里,翻车的企业和团队一个比一个惨烈。

最出圈的是Uber。这家全球出行巨头让员工大规模使用AI编程工具,结果呢?4个月就烧掉了全年的AI预算。不是多花了一点,是直接把一整年的预算在4个月内造完了。管理层的表情大概不会太好看。

还有一家不愿意透露名字的公司,可能连预算上限都没设。他们在Claude上一个月的花费是5亿美元。一个月,5亿美元。如果你觉得这个数字是假的,很多人跟你一样,但这件事确实发生了。

再看向个人开发者,情况并没有好到哪去。有人用Claude Code做代码重构,还没提出第一个正式问题呢,光上下文预加载就吞掉了3.5万到4万个Token。三次提示调用,原本够用4小时的Token额度直接见底。你还没开始干活,钱已经花完了。

三、效率税到底从哪里来的

这些案例让人心疼,但归因不能只停在“模型太贵“。真正的问题出在Agent运行架构上。

今天的Agent在执行复杂任务时,典型流程是这样的:任务拆解规划→工具调用→结果校验→历史上下文再灌入→迭代修正。每一步都会产生新的Token消耗,每一步都有时间成本,而这些成本在单次模型调用时根本看不出来。只有把Agent放在一个连续的任务流里跑上几个小时,效率税的真实面目才会浮现。

问题的根源可以归结为两点:一是链路冗余,每多一个步骤就多一层开销;二是Token无效损耗,大量上下文被反复加载但只有极小部分被实际用于生成有用输出。

这也是为什么业内评判Agent价值的逻辑已经悄悄变了。过去比的是模型谁更聪明,现在比的是模型谁能在有限的Token预算里把任务跑完。

四、阶跃星辰用速度打出了差异化牌

就在这个节骨眼上,阶跃星辰开源了Step 3.7 Flash。这款模型没有走最卷的“智能天花板“路线,而是精准卡位了效率需求。

它的数字相当漂亮:最高生成速度400 tokens/s,有开发者甚至在极端条件下测到了6000 tokens/s。单流生成速度是DeepSeek-V4的2.4倍,64并发峰值吞吐是DeepSeek-V4的3.47倍。价格更狠,综合单价每百万Token只要0.2美元,约合人民币1.35元。

一个更直观的对比是:Step 3.7 Flash以Claude Opus 4.6约1/9的成本,实现了97%的性能。这不仅仅是一个“啊不错“就能形容的成绩——它直接改写了选型公式。

阶跃星辰还有一个被大多数人忽略的硬实力:86.1%的缓存命中率,全球第二。这在Agent场景里有奇效,Agent在长时间运行中会反复加载相同的上下文碎片,比如工具定义、任务模板、角色设定。缓存命中率高,意味着这些重复请求不需要重新算,延迟和成本同步下降。

五、企业该怎么避开效率税的大坑

看完这些数据,你可能会想,那我该怎么选?

直接从最近的行业变化中总结三个思路。第一,不要用benchmark分数替代效率评估。很多采购只看模型在榜单上的表现,但跑Agent不是考场上答题,比的是任务闭环效率。第二,给Agent预算设硬上限。那位一个月烧掉5亿美元的公司已经证明,没有护栏的AI部署不是在创造价值,而是在放火。第三,关注缓存效率和并发吞吐能力。模型单次推理快是一回事,在真实流量下的多并发表现才是实际能用得上速度。Step 3.7 Flash的64并发优势正是这个逻辑的最好注脚。

阶跃星辰自己做了一个漂亮的验证:上个月,Step 3.5 Flash在极氪8X上量产了整车智能体“超级Eva“,打通了车辆感知、语义理解、指令执行的全链路。这并非Demo级的演示,而是一台上路的量产车。能跑车载场景的模型,延迟和可靠性硬指标不可能不合格。

六、效率税能收,也能省

Agent效率税不是宿命。它不是模型原生就带有的缺陷,而是在现有Agent运行架构下被放大的副作用。

阶跃星辰的Flash系列已经证明,通过优化模型推理速度、提高缓存命中率、压低单位成本,效率税可以被大幅压缩。从Step 3.5 Flash到Step 3.7 Flash,这条路径越来越清晰。

未来一年,随着企业级智能化需求的持续爆发,Agent效率税这个话题只会越来越热。你是选择继续交这笔税,还是换个思路,让Agent跑得更快、花得更少?

答案其实挺清楚的。

© 版权声明

相关文章

暂无笔记

您必须登录才能记录笔记!
立即登录
none
暂无笔记...