
最近 Bright Data 的 Rafael Levi 在 AI Engineer 大会上聊了一个反直觉的观点:真正能规模化的数据管道并非写出来的,它是 AI Agent 让它长出来的。但文章里最让我触动的,其实是藏在角落里的一句话,有人问为什么不直接用 LLM 解析所有页面,Rafael 的回答很简单:因为这会让你破产。
这句话不是夸张。在数据采集这个场景里,「用 LLM 解决一切」的想法,正在让很多团队走上一条又贵又慢的路。
一、很多人有个误解
过去一年,随着大模型能力飞速提升,一个很自然的想法冒出来了:既然 LLM 能理解 HTML、能提取信息、能写代码,那为什么还要维护那些脆弱的选择器爬虫?直接调个模型,给它一整个页面,让它把数据吐出来不就完了?
这个思路听起来很优雅。但实际上,它在工程逻辑上藏着一个巨大的隐性成本假设,它默认 LLM 的调用是便宜的、足够快的、且可规模化的。不幸的是,这三条假设在线上跑一跑,全都不成立。
讲一个最简单的对比。传统爬虫解析一个页面,成本可以低到忽略不计,几毫秒的 CPU 时间,一次 HTTP 请求。而调用一次大模型解析同一个页面,即使是最便宜的模型,单次成本也是前者的成百上千倍。如果每天采集几百万个页面,这笔账算下来,远远不只是「贵一点」,那是「能不能跑」的差距。
二、这笔账算完你就懂了
我们先不扯概念,直接算账。假设你每天要采集 10 万个商品页面做竞品价格监控。
用传统爬虫方案:页面结构化好、反爬问题不大的情况下,一台普通的服务器就能处理。成本大头是工程师写规则和维护的时间,按一个月人工算,平摊到每天大概几百块。页面每多一个字段或网站布局改一次,需要人工介入改代码。
用 LLM 直解析方案:假设每次调用成本 0.01 元(已经是非常低的价格了),每天 10 万次就是 1000 元。一个月就是 3 万,单单模型调用费,还没算服务和延迟。而且 LLM 解析还有延迟问题:一次调用几百毫秒到几秒,10 万次意味着并发压力巨大,需要更多资源兜底。
一个更核心的问题是不可控。LLM 的输出是非确定性的。今天能正确提取的字段,明天换了模型版本可能就变了格式。在一个需要精确数据的管道里,这种不确定性是致命的,它不是「解析数据」,更像是在「猜数据」。
三、Agent 方案到底怎么省
那 AI Agent 的方案又省在哪?它为什么不会「让人破产」?
关键在于 Agent 不把 LLM 当主力,而是当救火队。在 Rafael 演示的方案里,正常运转时数据采集走的是规则引擎,传统爬虫方式,又快又便宜。只有当规则引擎遇到无法处理的异常(页面改版、新的反爬机制、动态加载内容还没被覆盖),Agent 才介入。
这个设计的精妙之处在于:LLM 的调用次数被压到了极限。大部分页面根本不需要模型介入,少数异常页面靠 Agent 的自适应能力修复规则,修复之后再走规则引擎的路径。换句话说,它把 LLM 当作一个「偶尔上门维修的专家」,而不是「每天上班的全职员工」。
从成本角度看:假设异常率是 5%,每天 10 万页面中只有 5000 页需要 Agent 处理。单次 Agent 调用成本 0.05 元(比局部解析更贵,但因为频率低),一天就是 250 元,一个月 7500 元。相比纯 LLM 方案一个月 3 万,直接省了 75%。而且日常采集的响应速度,和传统爬虫几乎没有差别。
四、三种模式一次说清
整理一下,目前数据采集市场上有三种模式,放在一起看就一目了然了。
传统爬虫方案成本最低,但对人的依赖最高。开发阶段需要大量写规则,上线后遇到网站改版需要人工介入。在小规模、结构稳定的场景下性价比极高,但规模一大、目标站点变多,维护成本会指数级上升。
LLM 直解析方案最灵活,理论上能处理任意不规则页面。但它的代价是每次调用都有边际成本,规模大了就很不经济。更致命的是输出的非确定性,在需要稳定格式的数据管道里,这几乎是一个否决项。
Agent 自适应方案是前两者的折中和升级。它用规则引擎兜住 95% 的常规流量,用 AI Agent 处理那 5% 的异常。成本介于前两者之间,但维护负担大幅降低,网站改版了?Agent 自己修复选择器。反爬升级了?Agent 自调整策略。你不需要半夜爬起来改代码。
核心判断是:这三种方案并非替代关系,它们更接近分层关系。传统爬虫代理常规场景,Agent 接管异常处理,LLM 只在最复杂的策略决策时才出场。每一层各司其职,才可能把成本和维护效率都做到最优。
五、你的数据策略该选谁
如果你现在问我,一个团队应该怎么搭建数据采集基础设施,我的建议很简单:别用 LLM 做主力干活的人,它太贵了。也别只用规则引擎不配上 Agent,你迟早被改版搞疯。
理想的姿势是让你现有的规则引擎跑日常流量,同时在旁边架一个 AI Agent 做观察和应急响应。不需要多花太多钱,但可以换来「再也不用半夜爬起来看监控」的自由。
最后留一个问题给各位产品经理:你的团队现在用什么方式做数据采集?成本结构合理吗?如果哪天目标站点集体改版或者反爬全面升级,你的系统扛得住吗?欢迎在评论区聊聊。

