智驾进入双引擎时代。

智驾行业最近非常热闹，各种高阶智驾方案扎堆亮相，一个比一个能打：

华为乾崑发布896线双光路激光雷达，ADS 4.0 智驾能力再上一个台阶；
小鹏发布 VLA 2.0 新一代高阶智驾系统，直接对标 L4 级能力；
Momenta 将在 ID.ERA 9X 首搭 R7 世界模型智驾，实现从 L2+ 到 L4 级智驾的跨越；
理想发布 MindVLA-o1 的 VLA 方案，同样瞄准 L4 级高阶智驾；
地平线 HSD 走普惠路线，“上车” iCAR V27 猎鹰 700。

梳理下来，企业在智驾模型架构的选择上大致分为两条路线：理想、小鹏偏好VLA模型架构，华为乾崑、Momenta则押注世界模型架构。

两条路线本可以并行发展，但两边阵营的拥趸却争论开了。

有人认为，世界模型对芯片算力要求高、交互能力偏弱，对下沉车型不太友好；也有人觉得，VLA 的物理精度表现一般，可能会影响车辆的实时判断能力。

图片1.jpg

（图源：微博直播截图）

事实真如大家争论的那样，VLA 和世界模型必须二选一？各家企业又如何解决高阶智驾模型的技术痛点？

VLA 拟人行车逻辑，世界模型精于物理推演

在讨论两种智驾路线是否需要二选一之前，我们应先看清二者的技术底层差异，才能做出客观判断。

先来说说 VLA，这是视觉、语言、动作集合的简称。这条技术路线，走的是从图像感知到语义定义，再到逻辑决策，最终实现动作输出的路径，整个驾驶决策流程和真人开车的思路几乎一致。

比如在遇到一个无红绿灯路口，VLA 会先识别路口有无突然出现的行人、非机动车等不确定因素，如果没有这些情况则将按照礼让行人、直行优先的交规准则，作出减速避让通行的决策。

这个过程和我们平时遵循的“一看二望三通行”的驾驶逻辑相似，是经过思考和推理作出的决策，即便是没有遇过的场景，车辆也会根据逻辑泛化做出合理判断。

（图源：电车通摄制）

再看世界模型，它的底层逻辑是基于物理引擎的动态模拟，运作流程完全不同。

从过程来看，世界模型是先通过激光雷达和摄像头同步扫描周边环境，为智驾芯片构建出车辆周围的实时路况模型，再由智驾芯片完成物理推演，最终下达行动决策，整个过程更像是一台高精度运转的“交通模拟器”。

世界模型是根据海量数据训练物理规则做出的推演，优势是标准化场景下精度极高，可一旦碰到训练库之外的非标场景，就容易出现决策僵硬的问题。

比方说遇到行人过马路的场景，它不会像人类一样优先主动礼让，而是会精准计算行人运动速度、车辆制动距离、两车交汇时间差等数据，规划出一条最优行驶轨迹，也正因如此，往往会出现不主动礼让行人的情况。

VLA 善于适配城市场景，世界模型更为精准

在实际使用场景上，VLA 的核心优势是能更好地应对未知、多变的规划路线，而世界模型对于端到端的理想路况有更好的适应力。

国内城市道路拥有最丰富、最复杂的道路驾驶环境，经常能遇到突然出现的施工路段、非标路口、临时交通管制、突然闯出的行人及电动车，这些都给智驾技术提出了不小的挑战，而 VLA 能更好地适应这种情况。

靠着拟人化的逻辑推理，VLA 能快速处理这些突发状况，遇到阻碍时会主动规划绕行路线，而非固守预设轨迹停滞不前。从场景适配性来看，VLA无疑更适合复杂的城市道路驾驶。

正因如此，小鹏在展示 VLA 2.0 技术时，没有选在空旷的开发新区、卫星城等理想的测试环境，而是把搭载 VLA 2.0 技术的测试车直接开进广州路况最为复杂、驾驶难度最高的城中村，直接将挑战系数拉满。而实际测试的结果是，其 VLA 2.0 智驾技术能很好地完成在非标场景的驾驶。

不过，VLA 技术存在物理精度表现一般的痛点，在一些精度要求较高的驾驶要求上，它的表现会不如世界模型。之所以会有这种情况，恰恰源于其自身的架构基因。

VLA 是基于“语义思考”再做判断决策的，摄像头识别到的物体会转换成语言 token，再由大模型推理作出决策。

这种运作模式带来的直观差异是，VLA输出的是“前方有车”“距离有点远”“行人要过马路”这类描述性信息，而智驾芯片实际需要的，却是“距离3.72米”“速度42.5km/h”“1.2秒后会相交”这类精准量化反馈，二者的信息维度差异，直接导致了VLA物理精度的不足。

反观物理精确度，正是世界模型的核心优势所在。正因如此，在端到端的高阶智驾场景里，搭载世界模型技术的车辆，能够轻松实现车位到车位的精准预判驾驶，同时在能耗控制与行车安全性把控上，表现也更为出色。

不过与之对应的是，世界模型的适用场景范围相对局限，远没有VLA宽泛，它更适合高速路、封闭园区、城市快速路这类路况规整、变数较少的标准化道路。

（图源：鸿蒙智行官网）

除了场景适配局限，世界模型还有两大明显劣势：一是高度依赖高算力芯片，二是自然语言交互能力较弱。

由于需要完成大规模的数据实时推演，世界模型对算力消耗极大，对智驾芯片的性能要求极高，这也直接导致，常规基于世界模型打造的智驾车型，整体售价居高不下，难以实现普惠。

当然，这一劣势由于技术的升级而逐步得到改善。

目前最直接的例子就是，华为乾崑近期发布的896线激光雷达，已经应用在20万级别的尚界Z7/Z7T、问界M6上。通过硬件成本下探、算力架构持续优化，原本对芯片要求极高的世界模型，也能在主流价位车型上稳定落地。

即便同样主打端到端智驾，基于世界模型打造的地平线HSD方案，已经成功实现高阶智驾技术下放，将其普惠至15万元级别的主流家用车型，彻底打破了世界模型智驾成本居高不下、难以普及的固有认知。凭借这套高性价比的智驾方案，地平线征程芯片累计出货量更是突破1000万，成功赋能超500款车型落地，让世界模型技术的普惠化成为可能。

另一方面，世界模型对于自然语言交互能力不及 VLA，比如在使用智驾时，驾驶员发出“前面车太慢，找机会超了它”“别跟大车太近”“前面靠边停一下”等指令，可能得不到世界模型的及时响应，它依旧会根据设定的路线“自顾自地开”，稍微不够灵活。

双引擎协同互补，是实现L4智驾的趋势

既然VLA与世界模型两条技术路线各有优劣、场景适配互补，那能否将二者优势结合，取长补短打造出更完善的高阶智驾方案？

答案显然是肯定的，行业内也早已开始布局这种融合式技术路径。

小鹏 VLA 2.0、理想 MindVLA-o1、Momenta R7强化学习世界模型正是将两者融合的代表方案，业内也将其称作智驾“双引擎”模式。

以Momenta R7为例，这套大模型就是在强化学习的基础上引入了世界模型，让AI能够逐步理解世界的物理本质，包括物体的物理属性、运动的因果关系以及交互过程中的潜在可能，不再只是简单地模仿驾驶动作。

在这套协同架构里，世界模型承担“底层基建”的核心角色，依托激光雷达与算力支撑，在云端构建高精度物理仿真环境，生成海量长尾极端场景，完成物理轨迹规划与底层数据训练，筑牢智驾的精准执行基础。

VLA则主攻“上层决策”，依托世界模型的精准物理预判，结合自身拟人化语义逻辑推理能力，专门处理复杂道路社交场景、非标突发路况，做出更贴合人类驾驶习惯的柔性决策。

两者“合体”落到实际使用场景中可能是这样的：驾驶者启动了端到端的智驾，车辆驶出车位，在马路上遇到行人，实现礼让行人后通行。在智驾过程中，驾驶者想到路边买瓶水，用语音指令让车辆靠边停车等待，待驾驶者上车后，车辆自动驶往目的地停车位，从而实现整个智驾流程，驾驶者无需接管。

（图源：理想官网）

这种融合架构，既解决了世界模型“不懂变通”的问题，又弥补了VLA“效率不足” 的缺陷，让智驾系统既能精准算物理轨迹，又能灵活懂社交规则，真正接近人类司机的驾驶水平。

这既是 VLA 和世界模型合体的魅力，也是 L4 级高阶智驾的设想，当然它也许可以做到更多。

（图源：理想官网）

这也印证了，下一代智驾技术的发展方向，从来不是非此即彼的路线之争，而是通过分层协同、精细化打磨，让一套系统适配全场景复杂路况，再依托持续完善的数据闭环迭代，让智驾系统随着使用不断优化，变得越来越聪明。

可以预见的是，未来 1-2 年，双引擎智驾方案必然会成为大多数头部车企的选择，整个行业的竞争焦点也不再是单一技术路线的比拼。

更何况，现在已经车企，以及地平线等智驾企业在这一点上发力。想必不用等太久，高阶智驾就能真正落地到日常开车里，不再是高价车的专属，既能算得准、走得稳，又能灵活应对各种突发状况，实实在在贴合普通人的用车需求。

（封面图源：电车通摄制）

智驾不是二选一：VLA+世界模型，是迈向L4的唯一正解

VLA 拟人行车逻辑，世界模型精于物理推演

VLA 善于适配城市场景，世界模型更为精准

双引擎协同互补，是实现L4智驾的趋势

雷科技关注智能生活和前沿科技，让每个人享受科技的乐趣