AI将靠「递归」进行自我构建？

“递归”这个词，最近突然在AI圈子里火了。

两家初创公司直接把这个词当成了公司名，许多实验室开始在路线图里塞进一个叫做RSI的三字缩写中，也就是递归的英文名——recursive self-improvement（递归式自我改进）。就像AGI一样，RSI正在变成一个让人既兴奋又忐忑的行业暗号，哪怕大家对它的定义还没完全对齐。

8431c66573c08de96c6d43184adb04da

（图源：X）

什么是RSI？简单来说，就是让AI自己训练自己，在技术界，RSI一直被视为人工智能进步的主要标志之一，与记忆、推理和多模态并列，唯一的限制是算力，人类在其中已经不是必要条件，甚至连帮手都算不上。

听起来很科幻，或者说，听起来很危险？但冷静下来想，这不是AI行业的第一次狂热。从2016年的AlphaGo到2023年的ChatGPT，再到今天各家大模型参数军备竞赛，AI行业的天性就是追逐下一个“改变一切”的东西，在雷科技AGI（ID：leikejiagi）看来，RSI可能就是下一场狂欢。

RSI火了：当AI能靠「递归」进行自我构建

今年5月，AI界知名研究员Richard Socher高调创办了一家叫Recursive Superintelligence的新公司，名字直接就是RSI。

他表示：“我们的核心目标是构建真正意义上的递归自我改进超级智能，整个研究的构思、实现和验证过程，全部自动完成。”

另一个更让圈内人津津乐道的案例，是‌安德烈·卡帕西（Andrej Karpathy）推进的一个叫Auto-Research的项目：用智能体集群来训练语言模型，让模型自己做简单的研究任务，自己去改进自己。

图源：github

‌

安德烈·卡帕西也是一个传奇人物，他在特斯拉做自动驾驶、在OpenAI做GPT都留下过硬货。现在他把RSI当成下一站来all in，而且是用公开透明的方式在推进，这也说明他是真的认为这事可以做到。

有意思的是，他对这个项目出奇地坦诚，定期在推特上更新进展，代码也开了GitHub公开仓库。当然，‌安德烈·卡帕西自己也说了，目前的工作还是在GPT-2级别的小模型上做迭代，“还不是什么突破性研究（暂时）”，但这已经足够带动一大批研究者跟进了。

更重要的是，‌安德烈·卡帕西最近加入了Anthropic的预训练团队。Anthropic有Claude，卡帕西有auto-research这套方法论，两边一合，大模型+自训练循环，一旦跑通，就不是GPT-2级别的小打小闹了。

图源：haimagazine

另一家叫Adaption的公司推出了一个AutoScientist工具，目标是自动化前沿模型的训练过程。逻辑跟‌安德烈·卡帕西的auto-researchers一样，训练agent做渐进式改进。只不过Adaption的野心更大，想直接搞定一整个全尺寸前沿模型的训练闭环。

这两家其实代表了两种路线：‌安德烈·卡帕西是从底层逐块验证，一边开源一边在社区里攒势能；Adaption是直接冲着商业化的大模型训练场景去的，落地意愿更强烈。两条路谁先跑通，对整个行业的影响会截然不同。

Google CEO泼冷水：我们还没到那一步

关于RSI，AI圈大佬们也众说纷纭。

Google CEO 桑达尔·皮查伊上个月在一档播客里，措辞相当谨慎地承认了现实：“（RSI）是一个连续体，我们确实都在进步。但如果按照大家描述RSI的方式，那代表的是下一个量级的加速，会有很多影响，但我们还没到那一步。”

虽然如此，但这里面的“连续体”描述，已经包含了不少让人细思极恐的事情。

今年1月，Anthropic一位主导Claude Code开发的程序员坦言，团队里接近100%的代码是Claude Code写的，这是一种字面意义上的AI在写自己。不是AI辅助工程师写代码，而是AI工具在某种程度上已经在替代工程师写自己的代码。

图源：Anthropic

Anthropic有一份关于Mythos预览版本的内部调查：18位工程师里，有5位认为，如果配套系统再改进一下，这个版本的Mythos就可以替代一个L4工程师，即可以独立承接复杂项目、不需要实时监督的中级程序员。

但缺陷也写得很清楚：“Claude报告的主要弱点包括：管理周期以上的模糊任务、理解组织优先级、品味、验证、指令遵循和认识论。”意思就是说，它弱的，恰恰是自我驱动的那些事，而自我驱动，是RSI的根基。

好玩的是，Georgetown安全与新兴技术研究中心（CSET）去年组织了一批专家专门研究RSI。这群专家在评估时出现了明显分裂，一部分人预期即将迎来“超级智能爆炸”，另一部分人预期进展会更慢、最终会触达某个瓶颈期。

但他们有一个共识：递归，让未来变得格外难以预测。

为此，METR研究员Ajeya Cotra的一篇文章，把RSI的进程拆解成几个里程碑，我觉得这是目前最好用的分析框架。

第一级叫“足够”（adequacy）：把人类完全移除后，系统依然能做研究——哪怕不如人类，但能运转。

第二级叫“对等”（parity）：AI独立完成的研究，和人类独立完成的研究质量相当。

第三个叫“超越”（supremacy）：AI独立系统的表现，超过了人类与AI协作的系统。

有点像自动驾驶里的L2、3、4、5。Ajeya Cotra的判断是：我们离第一级已经很近了。但第二级什么时候来，她没给时间表，但她给了一个非常明确的推演，一旦第二级到来，后续加速会远超过往，“一年之内可能就会冲到第三级。”

为什么这么快？因为到了第二级那一刻，AI就变成了一个不需要睡觉、不需要开会、不需要对齐KPI的研究团队。它可以24小时不间断地试、改、再试。而人类做研究，哪怕效率再高的人，一天的有效深度工作时间也就那么几个小时，中间还夹着无数打断和沟通成本，一旦这个瓶颈不存在了，加速度是断崖式上升的。

国内没人喊RSI，但DeepSeek们已摸到了边

前面聊了一堆海外的进展，你可能想问：国内呢？

坦白讲，国内厂商很少公开喊RSI，海外的AI公司能把“递归超级智能”写进公司使命，这种事在国内几乎不可想象。但如果说让AI自己改进自己，国内厂商其实已经在不同的路径上悄悄摸到边了。

最典型的例子是DeepSeek。他们花的钱比OpenAI少一个数量级，但在很多推理任务上已经可以正面刚。靠的就是算法效率的极致优化——MoE架构、激活参数的极致压缩、训练策略的工程化打磨。

虽说这跟RSI关系不大，但这是一条用更聪明的方法，替代蛮力堆算力的路。而这条路，恰好是RSI的核心逻辑之一：让模型在迭代中找到更聪明的那条路径。

百度文心这边，强化学习驱动模型自我优化已经是常规操作了。虽然没有用RSI这个名字，但做的是同一件事：让模型在特定任务上通过自反馈循环不断改进。从这个角度看，国内厂商不是没在做RSI，只是他们已经把RSI的某些环节变成了日常工程实践，只是不挂这个名。

Gemini_Generated_Image_y2ldidy2ldidy2ld

（图源：gemini生成）

当然，差距也是客观存在的。OpenAI和Anthropic的人才密度，目前国内任何一家都还比不了，这意味着在RSI的探索上，眼下仍然是跟随状态。

但历史经验告诉我们，国内厂商在“管道路径明确之后”的追赶速度往往是惊人的。RSI的框架正在被海外大神们拆得越来越清晰，Karpathy的代码也公开在GitHub上，一旦可复现的路径走通了，国内玩家的成本控制能力和落地场景密度，会是一个被市场严重低估的变量。

但同时，我们也得适当泼点冷水。事实上，AI自己生成的数据，用来训练下一版AI，质量是会往下掉的。RSI的逻辑是AI生成好的数据，然后用这些数据训练下一代AI，使得下一代AI更强。

而实际情况可能反过来，AI生成的数据里往往会混进它自己的幻觉、偏见、质量退化，这些二手数据被喂给下一版，下一版再产出更差的三手货，循环几代之后整个系统就塌了，就像一个复印机不断复印复印件，印到第十张脸都糊了。

学术界管这个叫模型坍缩，已经有论文验证过这个现象真实存在。

再者，RSI需要的理想环境，在真实世界里根本不存在。这套系统要跑起来，两个前提缺一不可：无限算力、全球开放协作的研究生态。

而现实是训练一个前沿模型的成本已经到了十亿量级，芯片产能有限、能源有限、优质数据也在变少，出口管制和技术脱钩正在把AI研究切成几个互相不流通的圈子，人和货都流不动，连这些基础条件都凑不齐，就别谈什么RSI了。

RSI不只是一个技术问题了，它还需要一个足够开放的世界，而这个前提能不能成立，技术圈还真无法说了算。

写在最后

最后说个我觉得有意思的观察：整个行业在过去五年里，先是大规模预训练把人拉进了“参数崇拜”，然后是RLHF（基于人类反馈的强化学习‌）让人相信“价值观可以微调”，现在是RSI在讲一个“机器自己跑完整个研发链条”的故事。每一步都在让人类往后退一步，不是退出行业，而是退出决策链条。

虽说这种退法不一定是坏事，但它是不可逆的。一旦某个环节被自动化接管了，人的直觉、经验、判断力在那个环节就慢慢退化了，就像不用GPS之后你会发现认路能力确实在变差。

到那时候，我们连工具是怎么造出来的，都不一定能真的理解。

让AI自我构建的RSI火了！Google泼冷水，DeepSeek们摸到了边

RSI火了：当AI能靠「递归」进行自我构建

Google CEO泼冷水：我们还没到那一步

国内没人喊RSI，但DeepSeek们已摸到了边

写在最后

雷科技关注智能生活和前沿科技，让每个人享受科技的乐趣