智驾进入双引擎时代。

智驾行业最近非常热闹,各种高阶智驾方案扎堆亮相,一个比一个能打:


  • 华为乾崑发布896线双光路激光雷达,ADS 4.0 智驾能力再上一个台阶;

  • 小鹏发布 VLA 2.0 新一代高阶智驾系统,直接对标 L4 级能力;

  • Momenta 将在 ID.ERA 9X 首搭 R7 世界模型智驾,实现从 L2+ 到 L4 级智驾的跨越;

  • 理想发布 MindVLA-o1 的 VLA 方案,同样瞄准 L4 级高阶智驾;

  • 地平线 HSD 走普惠路线,“上车” iCAR V27 猎鹰 700。


梳理下来,企业在智驾模型架构的选择上大致分为两条路线:理想、小鹏偏好VLA模型架构,华为乾崑、Momenta则押注世界模型架构。


两条路线本可以并行发展,但两边阵营的拥趸却争论开了。


有人认为,世界模型对芯片算力要求高、交互能力偏弱,对下沉车型不太友好;也有人觉得,VLA 的物理精度表现一般,可能会影响车辆的实时判断能力。


图片1.jpg

(图源:微博直播截图)


事实真如大家争论的那样,VLA 和世界模型必须二选一?各家企业又如何解决高阶智驾模型的技术痛点?


VLA 拟人行车逻辑,世界模型精于物理推演


在讨论两种智驾路线是否需要二选一之前,我们应先看清二者的技术底层差异,才能做出客观判断。


先来说说 VLA,这是视觉、语言、动作集合的简称。这条技术路线,走的是从图像感知到语义定义,再到逻辑决策,最终实现动作输出的路径,整个驾驶决策流程和真人开车的思路几乎一致。


比如在遇到一个无红绿灯路口,VLA 会先识别路口有无突然出现的行人、非机动车等不确定因素,如果没有这些情况则将按照礼让行人、直行优先的交规准则,作出减速避让通行的决策。


这个过程和我们平时遵循的“一看二望三通行”的驾驶逻辑相似,是经过思考和推理作出的决策,即便是没有遇过的场景,车辆也会根据逻辑泛化做出合理判断。


image.png

(图源:电车通摄制)


再看世界模型,它的底层逻辑是基于物理引擎的动态模拟,运作流程完全不同。


从过程来看,世界模型是先通过激光雷达和摄像头同步扫描周边环境,为智驾芯片构建出车辆周围的实时路况模型,再由智驾芯片完成物理推演,最终下达行动决策,整个过程更像是一台高精度运转的“交通模拟器”。


世界模型是根据海量数据训练物理规则做出的推演,优势是标准化场景下精度极高,可一旦碰到训练库之外的非标场景,就容易出现决策僵硬的问题。


比方说遇到行人过马路的场景,它不会像人类一样优先主动礼让,而是会精准计算行人运动速度、车辆制动距离、两车交汇时间差等数据,规划出一条最优行驶轨迹,也正因如此,往往会出现不主动礼让行人的情况。


VLA 善于适配城市场景,世界模型更为精准


在实际使用场景上,VLA 的核心优势是能更好地应对未知、多变的规划路线,而世界模型对于端到端的理想路况有更好的适应力。


国内城市道路拥有最丰富、最复杂的道路驾驶环境,经常能遇到突然出现的施工路段、非标路口、临时交通管制、突然闯出的行人及电动车,这些都给智驾技术提出了不小的挑战,而 VLA 能更好地适应这种情况。


靠着拟人化的逻辑推理,VLA 能快速处理这些突发状况,遇到阻碍时会主动规划绕行路线,而非固守预设轨迹停滞不前。从场景适配性来看,VLA无疑更适合复杂的城市道路驾驶。


正因如此,小鹏在展示 VLA 2.0 技术时,没有选在空旷的开发新区、卫星城等理想的测试环境,而是把搭载 VLA 2.0 技术的测试车直接开进广州路况最为复杂、驾驶难度最高的城中村,直接将挑战系数拉满。而实际测试的结果是,其 VLA 2.0 智驾技术能很好地完成在非标场景的驾驶。


不过,VLA 技术存在物理精度表现一般的痛点,在一些精度要求较高的驾驶要求上,它的表现会不如世界模型。之所以会有这种情况,恰恰源于其自身的架构基因。


VLA 是基于“语义思考”再做判断决策的,摄像头识别到的物体会转换成语言 token,再由大模型推理作出决策。


这种运作模式带来的直观差异是,VLA输出的是“前方有车”“距离有点远”“行人要过马路”这类描述性信息,而智驾芯片实际需要的,却是“距离3.72米”“速度42.5km/h”“1.2秒后会相交”这类精准量化反馈,二者的信息维度差异,直接导致了VLA物理精度的不足。


反观物理精确度,正是世界模型的核心优势所在。正因如此,在端到端的高阶智驾场景里,搭载世界模型技术的车辆,能够轻松实现车位到车位的精准预判驾驶,同时在能耗控制与行车安全性把控上,表现也更为出色。


不过与之对应的是,世界模型的适用场景范围相对局限,远没有VLA宽泛,它更适合高速路、封闭园区、城市快速路这类路况规整、变数较少的标准化道路。


image.png

(图源:鸿蒙智行官网)


除了场景适配局限,世界模型还有两大明显劣势:一是高度依赖高算力芯片,二是自然语言交互能力较弱。


由于需要完成大规模的数据实时推演,世界模型对算力消耗极大,对智驾芯片的性能要求极高,这也直接导致,常规基于世界模型打造的智驾车型,整体售价居高不下,难以实现普惠。


当然,这一劣势由于技术的升级而逐步得到改善。


目前最直接的例子就是,华为乾崑近期发布的896线激光雷达,已经应用在20万级别的尚界Z7/Z7T、问界M6上。通过硬件成本下探、算力架构持续优化,原本对芯片要求极高的世界模型,也能在主流价位车型上稳定落地。


即便同样主打端到端智驾,基于世界模型打造的地平线HSD方案,已经成功实现高阶智驾技术下放,将其普惠至15万元级别的主流家用车型,彻底打破了世界模型智驾成本居高不下、难以普及的固有认知。凭借这套高性价比的智驾方案,地平线征程芯片累计出货量更是突破1000万,成功赋能超500款车型落地,让世界模型技术的普惠化成为可能。


另一方面,世界模型对于自然语言交互能力不及 VLA,比如在使用智驾时,驾驶员发出“前面车太慢,找机会超了它”“别跟大车太近”“前面靠边停一下”等指令,可能得不到世界模型的及时响应,它依旧会根据设定的路线“自顾自地开”,稍微不够灵活。


双引擎协同互补,是实现L4智驾的趋势


既然VLA与世界模型两条技术路线各有优劣、场景适配互补,那能否将二者优势结合,取长补短打造出更完善的高阶智驾方案?


答案显然是肯定的,行业内也早已开始布局这种融合式技术路径。


小鹏 VLA 2.0、理想 MindVLA-o1、Momenta R7强化学习世界模型正是将两者融合的代表方案,业内也将其称作智驾“双引擎”模式。


以Momenta R7为例,这套大模型就是在强化学习的基础上引入了世界模型,让AI能够逐步理解世界的物理本质,包括物体的物理属性、运动的因果关系以及交互过程中的潜在可能,不再只是简单地模仿驾驶动作。


在这套协同架构里,世界模型承担“底层基建”的核心角色,依托激光雷达与算力支撑,在云端构建高精度物理仿真环境,生成海量长尾极端场景,完成物理轨迹规划与底层数据训练,筑牢智驾的精准执行基础。


VLA则主攻“上层决策”,依托世界模型的精准物理预判,结合自身拟人化语义逻辑推理能力,专门处理复杂道路社交场景、非标突发路况,做出更贴合人类驾驶习惯的柔性决策。


两者“合体”落到实际使用场景中可能是这样的:驾驶者启动了端到端的智驾,车辆驶出车位,在马路上遇到行人,实现礼让行人后通行。在智驾过程中,驾驶者想到路边买瓶水,用语音指令让车辆靠边停车等待,待驾驶者上车后,车辆自动驶往目的地停车位,从而实现整个智驾流程,驾驶者无需接管。


image.png

(图源:理想官网)


这种融合架构,既解决了世界模型“不懂变通”的问题,又弥补了VLA“效率不足” 的缺陷,让智驾系统既能精准算物理轨迹,又能灵活懂社交规则,真正接近人类司机的驾驶水平。


这既是 VLA 和世界模型合体的魅力,也是 L4 级高阶智驾的设想,当然它也许可以做到更多。


image.png

(图源:理想官网)


这也印证了,下一代智驾技术的发展方向,从来不是非此即彼的路线之争,而是通过分层协同、精细化打磨,让一套系统适配全场景复杂路况,再依托持续完善的数据闭环迭代,让智驾系统随着使用不断优化,变得越来越聪明。


可以预见的是,未来 1-2 年,双引擎智驾方案必然会成为大多数头部车企的选择,整个行业的竞争焦点也不再是单一技术路线的比拼。


更何况,现在已经车企,以及地平线等智驾企业在这一点上发力。想必不用等太久,高阶智驾就能真正落地到日常开车里,不再是高价车的专属,既能算得准、走得稳,又能灵活应对各种突发状况,实实在在贴合普通人的用车需求。


 (封面图源:电车通摄制)