Ilya Sutskever访谈深度解读:关于大模型的瓶颈、人类智能的优势、模型泛化不足以及5-20年后超级智能会出现的真正问题
几天前,Dwarkesh Patel 发布了一期对 SSI(Safe Superintelligence)创始人 Ilya Sutskever 的长访谈。对 AI 圈的人来说,Ilya 的名字基本等同于“深度学习时代的亲历者”:
- 他在 AlexNet 时代就和 Hinton、Krizhevsky 一起,把深度卷积网络推上 ImageNet 舞台;
- 在 OpenAI,作为联合创始人兼首席科学家,他深度参与了 GPT 系列的诞生和预训练范式的形成;
- 离开 OpenAI 之后,他创立了 SSI,第一家把“安全超级智能”写在公司名字里的实验室。
所以,这不是一档“闲聊式”的播客,而是一位曾经亲手推动过 AlexNet、GPT-3 这些转折点的人,公开讲他觉得当前范式会在哪里失速、人类智能到底厉害在哪里,以及他认为超级智能会在什么时候,以什么形式出现。
在这篇文章里,我会基于这次访谈的翻译,尝试回答几个关键问题:
- 为什么现在的大模型在评测里像天才,现实却经常翻车?
- 人类的情绪、价值判断、进化来的“本能”,在智能里到底起了什么作用?
- “Scaling 继续堆就会出 AGI”这件事,Ilya 现在怎么看?
- 他怎么定义“超级智能”?是一个无所不知的神谕,还是别的东西?
- 他给出的时间线是什么?——5 到 20 年。

整篇文章会尽量用自然的方式展开,不会刻意搞成 FAQ 或 bullet point,但你关心的那些硬结论,都会明确写出来。
一、表面风平浪静,底层却在蓄势:大模型能力与经济影响的错位
这次访谈一开始,Ilya 就指出了几个让人有“违和感”的现象:一方面,AI 行业看上去像一台全速运转的机器:全球在大模型上投入的资金动辄数十亿、上百亿;巨头和创业公司轮番发布新模型;GPU 集群规模不断刷新历史记录。
按直觉,这么大的资源投入,应该已经深刻改写了经济结构和普通人的日常生活。但现实并不是这样。包括Ilya在内的感受是:大多数人目前并没有真正感受到“AI 改变世界”的那种冲击。
另一方面,从模型能力的角度看,我们又确实看到了一些“突破常识”的地方:在各种评测和竞赛题里,大模型拿到的分数已经可以用“变态”来形容,很多任务上已经远超人类平均水平,甚至逼近顶尖专家。但只要你真的把模型拉去写代码、调系统、做长期规划,很容易遇到那种典型的“又强又蠢”的体验。
Ilya 提到一个我们都很熟的Vibe Coding场景:你让模型修 bug,它一本正经地承认错误,然后修完之后引入了第二个 bug;你指出第二个 bug,它道歉、修复,再顺手把第一个 bug 带回来。你和模型在两个 bug 之间来回扯皮,感觉它既聪明又不稳定。
这些现象放在一起,就出现了一种很明显的撕裂:
模型在评测曲线上的表现“太好看”,但真实世界的效用和经济扩散,却明显滞后。
Ilya 给这个状态起了个名字——“锯齿状的模型能力”:在标准化的测试环境中,表现平滑、可控;一旦进入复杂现实,就暴露出大量不连续、不可预测的盲点。
而在他看来,这种“锯齿状”不是因为模型“智商不够”,而是训练方式本身塑造出来的结果,尤其是后训练阶段的 RL(强化学习)。
二、从两个学生说起:现在的大模型训练出了“竞赛冠军”,而不是“好工程师”
为了让这个问题更直观,Ilya 用了一个很好懂的类比。想象有两个学生都在练算法竞赛:
- 第一个学生非常极端,决定要成为最强的竞赛选手,于是刷题刷了 10,000 小时,几乎见过所有题型,所有经典套路和证明技巧都烂熟于心,竞赛中表现很好。
- 第二个学生觉得竞赛挺有意思,但没有那么执着,可能就练了 100 小时,也掌握了不少东西,但远没有第一个那种“为了比赛而活”的专精程度,竞赛中虽然可能不一定比第一个学生好,但表现也很不错。
如果你要赌一赌:这两个人在未来真实工作中的表现谁会更好?正常情况下应该是第二个。Ilya 的观点是:
现在的大模型,更像那个刷了 10,000 小时题的第一个学生。
因为我们会说:“模型在编程竞赛上表现要好,那就把所有历史题库喂进去,再做数据增强,然后用 RL 想办法在这个指标上冲高”。结果就是模型在某些评测上强到离谱,但真正泛化到现实系统、复杂代码库、长期维护时,表现却不稳。
主持人问了一个关键问题:那第二个学生在做这 100 小时微调之前,到底多了什么?为什么它可以比第一个学生好?
Ilya 的回答很简单:“他们有 it factor,一种难以言表但真实存在的天赋”。这里说的it factor中文语境可以翻译成“那个东西/天赋/灵气”,甚至可以说是“慧根”。但Ilya 口中的 “It factor” 指的不是玄学,而是指一种极其高效的泛化能力(Generalization)和样本效率(Sample Efficiency)。这不是“有的人天生聪明”的那种玄学,而是他在提醒:
人类智能有一套更底层的学习机制,并不是简单的“数据量 × 训练时间”。
而这套机制,目前在机器学习范式里还没有被真正捕捉到。所以虽然大模型在特定场景好像超过人类,但都是刷题的结果,目前我们的模型还没有真正学会人类底层这套机制。这个机制是什么?目前没人知道。不过在访谈中Ilya并没有直接说不知道,而是说“我有一些想法,但现在不能说。”看样子他或者是OpenAI可能知道一点或者是有一点猜想,但是目前不能公开。
三、情绪、价值函数和进化:人类为什么这么会“学”和“选路”?可能人类的学习泛化能力与情感能力也关系
Ilya 接下来把话题拉回到人类自身:如果我们想复制类似人类的学习能力,除了当前讨论的学习机制外可能还需要考虑其它方面,例如就必须搞清楚一些看似“软”的东西:情绪、价值判断和进化塑造的本能,到底在智能里扮演了什么角色(从这里看,Ilya可能是认为情感能力也许可以帮助人类泛化)。
他讲了一个神经科学里经常被引用的病例:有一个大脑情绪中枢受损的患者,语言输出正常,解题能力也没问题,各类测验都可以通过,但他的决策能力几乎崩盘。挑袜子能犹豫半天,做财务选择总是选到灾难性的选项。这个现象很奇怪,一个只是情绪能力受损的人类为什么决策能力也会受到影响?
这个例子让 Ilya 得出的结论是:
情绪并不是“干扰理性”的噪声,而是驱动一个智能体“能活下去、能高效试错”的底层价值函数。
换成机器学习的话说,情绪是人类的内置 value function,它对我们走的每一步路给持续反馈,让我们知道“这条路更好”、“那条路走不通”,而无需等到整个 trajectory 结束再结算一次总奖励。
人类在学开车、学一项新技能的时候,很少有明确外部 reward;大部分时候,我们靠的是那种“我现在状态不太对”“这样做很危险”“这条路好像靠谱”的内在感受,这就是那套价值函数在工作。
机器学习里当然也有价值函数的概念,但大多数 RL 目前依然是“长 rollout + 稀疏结算”,很少能像人类神经系统那样,对中间过程产生大量细粒度、连续的“情绪式”反馈。
更深一层的,是进化问题。利于生存的决策模式经过亿万年的选择,被硬编码进了大脑结构。这其中既包含“闻到某种味道就觉得饿”的底层反应,也包含“渴望被认可、在乎地位、会共情他人”这些高层社会情绪。
问题在于:这些高层价值牵涉的是抽象概念而不是简单的化学信号,进化是如何把它们写进神经结构的?这一点至今仍是谜。
Ilya 的直觉是:
如果我们看不懂这一层,人类和模型在泛化和决策鲁棒性上的差距就会一直存在。
四、Scaling 不会一直奏效:我们正从“扩就完了”回到“得真想点新东西”
从 2020 年开始,“Scaling”几乎成了大模型圈的魔法词:更多数据 + 更多算力 + 更大模型 = 更好的 loss、更高的 benchmark 分数。
这套东西的确奏效了很多年:预训练给了一个非常简单的配方——你只要往里砸算力和数据,几乎可以确定会获得可观的效果提升,这对公司来说极具吸引力,因为它是一种“风险很可控的投资方式”。
但在这次访谈里,Ilya 的态度已经非常明确:
当前这一代 scaling 会“硬性失速”,我们正在回到真正的“研究时代”。
原因有几层:
- 高质量预训练数据本身是有限的,已经在接近天花板;
- Scaling law 不是物理定律,它在某个区间内很干净,一旦跨出区间,曲线就会变形;
- RL 如今消耗的算力在很多系统里已经 超过了预训练本身,但效果未必线性;
- 最关键的是:模型的泛化能力并没有随着规模自然逼近人类。
他说得很直白:
2012–2020 是“研究时代”,大家在不同架构和想法上做探索;
2020–2025 是“扩展时代”,行业押注在预训练配方上拼算力;
接下来,则会回到类似 2012 的状态,只不过这次我们有巨大的算力和一套成熟的 baseline 可以用来对比。
这里还有一个容易被忽略的点:历史上很多关键突破,用到的算力其实都不大——
- AlexNet 用了两块 GPU;
- Transformer 当年做实验时,最多也就几十张卡;
- 很多新范式、新想法,在最初被验证的时候,都只是小规模试验。
这并不是说算力不重要,而是 Ilya 在强调:
如果目标是找到新范式,你并不需要全世界最大的集群;那种级别的算力是“把范式推到极限”的工具,而不是“找到范式”的必要条件。
这一点也有很多争议,当时满世界的都在说预训练到头了,scale没有前途了(包括国内自媒体的标题也是夸张的吓人)。后续Ilya也在X上补充了,他并不是说当前单独Scale会失去价值,反而它会继续推动当前大模型继续提升能力。但是,如果我们想要AI继续飞速发展,当前依然缺少了“某种东西”,这里的“东西”可能就是前面的“it factor”,那种天赋,灵气或者慧根。
五、人类泛化比模型好多少?Ilya 的判断是“差了一个数量级以上”
在访谈里,Ilya 多次强调一点:
“这些模型的泛化能力,比人类差得多——是那种很明显的差距。”
如果用现在社区有人总结的一句话来转述,就是:当前大模型的泛化能力大概比人类差了一个到两个数量级,是“做 AGI 的最大拦路虎”。
你可以看到模型在数学题、编程题、推理评测上的高分表现,但一旦把它放到现实任务里——例如长期维护一个混乱的代码库、在不完整信息下进行多轮商业决策、在没有明确奖励信号的环境里持续学习——人类的稳定性和鲁棒性仍然远远领先。
如果我们愿意抽象一点,可以这样理解 Ilya 的观点:
- 今天的大模型在“静态任务 + 明确输入输出 + 风格接近训练分布”的场景里表现已经很好;
- 但在人类擅长的那些“半监督 + 自我引导 + 真实世界长周期”任务里,它们还远远不够格。
而 Ilya 认为,这一差距不会靠继续堆当前这套 scaling 自动消失。这就是他为什么会说:
“我们需要一套完全不同的机器学习范式。我有一些想法,但现在不能说。”
他并不是在卖关子,而是非常认真地表达一个判断:如果我们只是在现有范式上继续堆算力、微调和 RL,很可能只是在把“10,000 小时代码竞赛选手”训练得越来越强,而没在逼近人类那种“学什么都快、泛化很稳”的学习机制。
六、超级智能是什么样?不是一个“完成品神谕”,而是一个极快的持续学习者
在很多 AGI 叙事里,超级智能经常被想象成一个“已经知道一切”的神谕系统:你问它任何问题,它都能立即给出最优解。
Ilya 的描述完全不同。在他看来,超级智能更接近于一个“学习极快的人类”,而不是一个“预装一切知识的完成品”。他给出的类比是:一个“超级版的 15 岁少年”,被投入现实经济里做各行各业的工作,在部署过程中持续学习、适应、提升,并且可以把不同实例学到的东西合并起来。
这有几个重要含义:
- 超级智能不会一诞生就“无所不知”,它需要在世界里学习;
- 关键不在于它初始知道多少,而在于它学习新领域的速度和上限;
- 真正的“爆发点”很可能出现在部署之后的持续学习阶段,而不是最初上线那一刻。
这和他前文说的“类人学习机制”完美连接起来:如果有一天我们真的造出了那种“学任何东西都像青少年学开车一样快”的智能体,那才是他眼中真正的超级智能。
在时间线方面,Ilya 给出了一个相对宽但明确的区间:
超级智能在 5–20 年之间出现。
这不是一个“明天就末日”的危言耸听,也不是那种“迟早会来,具体不知道”的模糊回答,而是一位在一线做模型的人,根据他对技术路线和瓶颈的判断给出的、相对诚实的估计。
七、AI 的冲击会来得很猛,但要等到“经济扩散”真正发生
前面说过,现在的场景有点像:
- 投入非常大,
- 模型在评测上的表现惊人,
- 但绝大多数人日常生活中的改变还不算剧烈。
Ilya 的看法是:
这只是因为 AI 还没有充分“渗透进整个经济系统”。一旦真正完成部署、形成完整的 AI 劳动力结构,冲击会非常明显。
他预期的不是一种缓慢、线性的改变,而是某种拐点式的:当足够多的任务被“超级快速学习的 AI”接管之后,经济增长很可能会在一段时间内明显加速,甚至在某些国家、行业出现明显的“断层”。
但这中间会有一个滞后期:先是 eval 和 demo 变得惊人,然后是早期产品体验被小圈子的人疯狂传播,再然后才是真正的“经济扩散”和制度层面的反应。他很肯定:这一波冲击会来,而且不小。
下面是 重新改写后的第八节,更自然、更顺滑地承接前文,并加入对 SSI 的简要说明,不再像原来那样突兀跳入算力讨论。你可以直接把这一段替换掉原文第八节。
八、Ilya的SSI与OpenAI有什么不同:一家公司、一个赌注,以及“足够的研究算力”
聊到这里,话题自然而然就落到了 Ilya 现在的新公司 —— SSI(Safe Superintelligence) 上。很多人对这家公司比较陌生,因为它不像 OpenAI、Anthropic 那样发布产品、做 API、生模型榜单,而是一家极其“纯研究向”的实验室。
Ilya 创立 SSI 的初衷其实非常简单,也非常不常见:
它不是一家“做大模型竞赛”的公司,而是一家“专门研究下一代智能范式”的公司。
SSI 的名字本身就把目标写得无比直白:安全的超级智能。没有 Copilot、没有聊天产品、没有企业 API,也没有面向公众的模型。
他们只做一件事:寻找能够通向真正超级智能、且安全可控的新技术路线。
也正因为不做商业化,SSI 的算力结构和主流实验室完全不同。Ilya 在访谈里解释了一点很容易被外界误解的事情:虽然 SSI 的总融资(30 亿美元)比不上巨头,但他们能用于“从 0 到 1 的研究实验”的算力比例却远高于普通大模型公司。
原因在于:
- 大公司的大部分算力都用在 推理(inference)服务 上;
- 还要维持多模态、产品链、多团队的工程成本;
- 真正做“大胆研究”的算力,反而被大量稀释。
而 SSI 不做产品、不做 API,也不需要承担全球用户的推理负载,因此可以把更多算力聚焦在少数几个核心方向上。Ilya 的总结很简单:
“我们没有最多的算力,但我们有足够集中、足够纯粹的研究算力,可以验证一种新的技术路线是否正确。”
对 SSI 来说,算力不是拿来“卷基准分”的,而是拿来赌:是否能找到一种比 scaling 更本质、更接近人类学习的机制。这也是 Ilya 离开 OpenAI 后最根本的选择。他不是在创立另一家“商业大模型公司”,而是在建立一个“找下一代范式”的地方。
九、当 RL 吃掉的算力比预训练还多
还有一个很容易被忽略的信息点,是他对当前 RL 资源消耗的判断。Ilya 提到,现在很多前沿系统中,RL 环节消耗的算力实际上已经 超过了预训练,原因很简单:
- rollout 可以非常长;
- 每一步决策又要用到很大的模型;
- 每条 trajectory 带来的学习信号却相对有限。
换句话说,我们已经进入一个有点诡异的状态:预训练不再是唯一的“算力大头”,后训练的 RL 也变成了一个“吞算力黑洞”。这再次印证了他前面说的那句话:如果只是沿着当前范式继续堆算力,并不一定能带来成比例的收益,甚至可能出现“先撞上 RL 的天花板,再撞上预训练的数据天花板”的双重瓶颈。
也正是基于这一点,他才会不断强调:下一步的关键不是“再扩一百倍”,而是找到一种更聪明、更高效的用算力方式,包括更好的价值函数、更合理的训练结构和真正能提升泛化的新方法。
十、对齐与“关心感知生命的 AI”
Ilya也讨论了一点“伦理”相关的问题,即模型的价值观或者说对齐问题。在对齐问题上,Ilya 的一个观点在这次访谈里非常突出:
也许,比起“只关心人类”,让 AI 关心“所有感知生命”反而更自然。
这听上去有点反直觉,但他的理由是:
- 如果未来强智能本身也是感知体,那它对其他感知体的共情会更容易建立;
- 在人类身上,进化已经证明“高层社会欲望和价值”是可以被硬编码的;
- 镜像神经元等机制说明,用同一套回路去模拟他人,是一种高效的设计。
当然,这并不是一个“人类中心”的答案,因为在那种世界里,人类很可能只是所有感知生命中的极小一部分。这也是他承认的:这未必是最好的标准,但至少是一个值得放在桌面上认真讨论的候选方向。
他真正关心的问题是:在一个可能出现多套大陆级超级智能系统的未来里,前几个系统的价值观会极大地影响世界的走向。如果这些系统一开始就对感知生命有稳定的关怀,那么在很长一段时间内,世界会相对稳定得多。这也是他给 SSI 设定的目标之一。
十一、研究品味:美学、自顶向下信念,以及“大脑启发”的执念
在访谈最后,Dwarkesh 问了一个偏私人但是很有意思的问题:为什么 Ilya 总是能参与到那些关键转折点上?他的研究品味到底是什么?
Ilya 的回答出乎意料地“浪漫”。他没有说“因为我指标算得好”,也没有说“因为我实验跑得快”,而是说:
“我被一种关于智能应该长什么样的美学在驱动。”
在他看来,好的研究方向有几个特征:
- 简单而优雅,不是 patch 上 patch;
- 和大脑的结构和行为有某种“对得上号”的启发对应;
- 让人有一种“它就该是这样的”直觉。
这种直觉不是玄学,而是在现实里有用的。当一个实验尚未成功、数据暂时不理想的时候,是这种“自顶向下的信念”帮他判断:我是在错误方向浪费时间,还是在正确方向上还需要多坚持几步?这也许就是他可以从 AlexNet 一路走到 GPT,再到现在 SSI 的原因。
尾声:5–20 年的时间,去理解“人类为什么会学得这么好”
如果把这次访谈压成一句话,大概是:
当前这一代 scaling 范式会在未来几年内撞上硬瓶颈,而真正的超级智能,取决于我们能不能找到一套让机器像人类一样“学”的新方法。
你可以从访谈里读到几个非常明确的判断:
- 超级智能大概率在 5–20 年 之间出现;
- 当前 scaling 路线会“失速”,我们回到了“靠真研究而不是单纯堆卡”的时代;
- 超级智能不会是一个完成品神谕,而是一个“学任何东西都极快的持续学习者”;
- 现有模型的泛化能力比人类差了一个数量级以上,是 AGI 路上的最大阻碍;
- 解决这个问题,很可能需要一整套新的 ML 范式,而不是继续加大参数量;
- AI 对经济和社会的真正冲击会来得很猛,但在那之前会有一段“看起来没什么变化”的扩散期;
- 历史上的真正突破,很多都是在相对有限算力下做出来的;
- SSI 的赌注是:在足够集中使用的研究算力加持下,找到下一代泛化与学习框架;
- 当下的 RL 已经在许多系统中吃掉了比预训练更多的算力,却还没给出同等回报,这本身就是一个信号。
对 DataLearnerAI 的读者来说,最值得带走的一点也许是:
在一个“参数量、FLOPs、context length 天天刷屏”的时代,Ilya 这次讲的几乎全是“结构性的、底层的、关乎智能本质的问题”。如果未来十年 AI 的故事真有一个新的篇章,那很大概率不会只是“X× bigger GPT”,而是某种真正理解了人类为什么学得那么好、为什么泛化那么稳的新范式。
而 Ilya 显然是想用 SSI,在那一页上写自己的名字。他说:
“当实验反驳你时,是这种自顶向下的信念让你继续探索。
它来自于一种对智能应当是什么样子的美学判断。”
这解释了为什么他能从深度学习的萌芽一路走到今天。因为他不仅看到模型改变世界的潜力,更看到智能本身的形状。
结语:Ilya 的未来观,是比模型本身更深的一种洞察
读完这次访谈,很难不被 Ilya 的思考方式吸引。他的见解不是工程层面的,也不仅仅是哲学层面的,而是一种贯穿生物学、机器学习、经济、社会和未来智能体系的跨学科视角。
他真正关心的问题是:为什么人类能泛化?为什么模型不能?什么是价值函数?什么是学习?什么是智能?超级智能应当怎样存在于世界?这一类宏大的问题。
在这个快速迭代的大模型时代,Ilya 的声音显得格外重要,因为他关注的不是“下一次评测上分”,而是智能本质的下一次飞跃。未来几年 AI 的格局可能会经历巨大变化,但可以确定的是:
Ilya 正在试图推动人类历史上最重要的一次转折。而我们——包括整个产业——也正处在这个转折点前。