AI公司都在堆算力,姚顺雨却在腾讯「砍数据」

每日AI快讯14小时前更新 changgong
295 00

每日AI新闻

几乎所有AI公司都在做同一件事,堆数据。越多越好,不够就买,买不到就合成,合成不了就爬。但姚顺雨加入腾讯后干的第一件大事,是砍数据。

你没看错,是砍,不是堆。

汤道生在2026腾讯云AI产业应用大会上透露了一个细节。姚顺雨识别出腾讯过去训练数据虽然很多,但质量还不够高。在早期训练混元之前,他推动提升数据质量,砍掉大量看似可以堆量、实际对模型训练帮助不大甚至有害的数据

在AI行业,这几乎是反常识的操作。你一个腾讯,手握微信、QQ、腾讯文档、腾讯会议海量数据,别人求之不得,你却说“这些数据有问题”?

一、姚顺雨是谁,他为什么敢这么做

姚顺雨加入腾讯之前,在OpenAI工作。OpenAI是什么风格?Scaling Law的信徒,“更大、更多、更强”的践行者。GPT系列的每一代升级,底层逻辑都是“更多数据+更大算力=更好模型”。

但姚顺雨在OpenAI的这段经历,恰恰让他比别人更早地看到了Scaling Law的边际收益递减。数据堆到一定程度,每增加一个TB带来的模型提升越来越小,低质量数据的负面效应反而越来越明显。它会引入噪声、让模型学会错误关联、让“泛化”变成“死记硬背”。

这就是姚顺雨提出的“AI下半场”概念的核心。过去几十年,AI行业一直在寻找更好的方法。预训练和后训练让通用模型逐渐成为一种成熟的方法论。相比继续寻找新方法,今天更困难的事情是找到真正值得解决的问题

而“真正值得解决的问题”,不会从堆积如山的低质量数据中来。

二、「砍数据」到底砍掉了什么

汤道生没有详细说砍掉了哪些数据,但你可以从姚顺雨过往的学术和工作经历中推断他的思路。

姚顺雨在卡内基梅隆读博期间,研究方向就是如何让模型在更少的数据上做出更好的推理。他在OpenAI期间参与过InstructGPT的工作,那套用人类反馈来筛选高质量训练数据的方法论。他关心的从来不是数据的量,而是数据的信噪比

放到腾讯的语境里,“砍数据”大致砍的是这三类。

第一类,重复冗余数据。微信聊天、QQ群聊中的大量日常对话,看似是优质语料,但高度重复。每天有数亿条“在吗”“好的”“谢谢”,这些对话对模型能力的提升几乎为零。

第二类,噪声数据。腾讯产品矩阵覆盖的场景极广,从游戏到办公到社交到金融,每个场景的数据分布差异巨大。把金融客服数据和游戏聊天数据混在一起训练,模型可能学会了“怎么在客服对话里插入游戏术语”这样的错误关联。

第三类,「有害」数据。汤道生原文说“对模型训练帮助不大甚至有害的数据”。有些数据堆多了不是没帮助,而是有反作用。比如模型训练中如果包含了太多模板化的回复,模型的输出也会变得模板化,丧失创造力。

三、比砍数据更重要的,是Co-Design的框架

姚顺雨带来的不止是“砍数据”这一刀。汤道生明确指出,他推动了一个更核心的变革,模型与产品的Co-Design(协同设计)

过去,大模型公司普遍采取研用分离结构。模型团队关注Benchmark榜单,产品团队关注用户增长,两条线平起平坐。你做你的Scaling Law,我做我的产品体验,两者交集有限。

姚顺雨把这个结构打破了。他让模型团队直接去面对产品中的真实用户问题。那些只有一两句话、甚至表述模糊的用户提问,往往比标准化Benchmark更能暴露模型短板。

举个例子,用户跟元宝说“帮我把上午开会那个PPT改一下”。这句话有歧义、有指代、有时间跨度。标准Benchmark里不会有这样的问题,但在真实场景中,每天都在发生。模型能不能理解这样的模糊指令,决定了它是不是一个“能用”的产品。

Co-Design的好处是双向的。产品团队向模型团队输出真实用户问题,暴露短板;模型团队向产品团队输出能力边界,告诉产品团队“现在的模型能做哪些事、不能做哪些事”。双方相互校准,而不是各自埋头。

四、这给AI行业上了一课

姚顺雨在腾讯的这套打法,对所有AI公司都有参考价值。

第一,数据战略需要从「量优先」转向「质优先」。当互联网上能被爬的高质量数据基本被用尽,当合成数据的质量参差不齐,AI公司的竞争优势不再取决于谁的数据多,而是谁的数据好。这需要判断力。知道哪些数据有价值、哪些是噪音、哪些甚至有害。

第二,模型团队需要离用户更近。姚顺雨在腾讯的做法是让模型团队直接面对产品场景和真实用户反馈。这种“研用协同”的模式,比传统的研用分离更有可能做出真正好用的模型。因为模型好不好,最终不是看榜单排名,而是看用户愿不愿意用、用得爽不爽。

第三,砍比堆更需要勇气。在一个崇尚“越大越好”的行业里,敢于做减法是反直觉的。做加法的决策成本很低,方向不会错,只是效率问题。但做减法的决策成本很高。你敢不敢在自己负责的产品上砍掉某些能力?在数据上砍掉某些类别?这需要认知、需要判断力、需要为结果负责的勇气。

姚顺雨自己说,今天做大模型“没有什么秘密”,核心仍然是Infra、数据和评测体系建设。但如何定义真实问题、如何提升任务完成率、如何保证模型在实际场景中的稳定性,这些没有标准答案的问题,恰恰是他选择加入腾讯的原因。

腾讯拥有大量产品、场景和用户反馈,能够持续为模型提供真实问题和真实上下文。姚顺雨在腾讯做的事,本质上就是把“怎么做模型”和“为什么做模型”这两件事重新对齐。

这可能是AI下半场最需要的能力。

已经看到这儿了,那就点赞、分享、推荐三连吧!如果想第一时间收到推送,也可以给我个星标~

谢谢你看我的文章,我们,下次再见。

© 版权声明

相关文章

暂无笔记

您必须登录才能记录笔记!
立即登录
none
暂无笔记...