利用端到端+VLM，理想汽车重塑智驾体验

理想汽车智能驾驶正式进入AI大模型时代，为消费者带来前所未有的智驾新体验。

在9月14日的晚高峰来临前，有车主收到了理想汽车全新一代智能驾驶端到端+VLM技术的推送，万人体验活动就此开启，涵盖了MEGA、L9、L8、L7和L6的AD Max车型。而早在两个多月前，理想汽车就已经启动了相关的早鸟计划，测试工作也在紧锣密鼓地进行中。

这一系列动作不仅极大地推动了理想汽车在智能驾驶领域的发展，也激发了车主们对更高水平智能驾驶技术的新期待。

现在，满载着广大用户的殷切期望，理想汽车全新一代双系统智能驾驶解决方案「端到端+VLM」于10月23日正式全量推送，揭开了全新智驾系统的神秘面纱。这标志着理想汽车智能驾驶正式进入 AI 大模型时代，实现像人一样思考，像人一样驾驶，场景全覆盖、行驶更舒适、通行更高效。

毫无疑问，智能化将是新能源汽车未来发展的方向之一，而智能驾驶作为智能化的核心部分，也是最具科技竞争力的一环，自然而然成为了各大车企竞相角逐的关键领域。如果某款主流车型的产品亮点里没有提及智能驾驶技术，似乎意味着该品牌在技术上已经落后于时代。

随着ADS 3.0、端到端解决方案以及AI大模型等先进技术的不断涌现，智能驾驶正被赋予更多价值和更深层次的意义。这些新技术不仅显著提升了车辆的实际性能，使日常驾驶更加安全可靠，也成为提升品牌形象的有效手段，充分展示了科技型汽车企业在技术研发方面的创新能力。因此，理想汽车此次进行的端到端+VLM全量推送引起了广泛的关注和讨论，成为了业界和消费者热议的焦点。

有些人可能会很好奇，理想汽车的端到端+VLM究竟是什么“黑科技”？

理想端到端+VLM是新一代的智能驾驶解决方案，是真正意义上One-Model结构的端到端，并且率先将视觉语言模型VLM部署到车端芯片上的双系统方案。它不仅是世界首创，更是实现了全量用户的推送，这在智能驾驶领域可谓是“big news”。

两个系统，强于一个系统。这既可以是简单的1+1＞2算式，也可以是深邃的思考结论。

简单说明一下端到端技术，是指不再用人工制定规则的方式去约束智能驾驶系统，仅仅用人工智能模型，机械自学习的方式，去替代智能驾驶过程中的感知、规划控制等模块，从视觉的“输入”端，到智能驾驶系统最后控制车辆自行驶“输出”端，完全依靠模型自身系统来处理，让功能完全黑盒化。

端到端模型，追求One-Model一体化端到端。不过出于安全冗余的考量，目前市场上在智驾领域处于领军者的车企，都会设置一定的底层负责安全冗余的算法，将感知、规划控制模块独立，而接口仍然由人工定义和连接。而理想引入了另一个系统——系统2，VLM视觉语言模型，真正实现了One-Model结构的端到端。

对此，理想汽车智能驾驶研发副总裁郎咸朋博士这样解析运作机理：系统1完全靠自己的视觉感知，执行操作，系统2需要长期积累知识给系统1提醒和告知。系统2能够提供复杂环境的理解能力、读懂导航地图的能力以及交通规则的理解能力，辅助系统1进行规划决策。

按照理想的说法，VLM具备应对复杂场景的逻辑思考及决策能力。理想汽车模仿人类大脑双系统架构，让两个系统为整个理想的智能驾驶服务。

基于这些优势，全新的智能驾驶解决方案，可以实现实现路边起步、环岛、U 型掉头等困难场景的顺畅通行，同时基于独有的VLM视觉语言模型，实现了限时公交车道、潮汐/可变车道、减速带、坑洼路面等场景识别和应对能力。与此同时，在安全性、舒适性和效率上大幅提升，拟人化程度再上新的台阶。

不仅如此，在智能驾驶的车机交互界面也进行了全面焕新，双系统的“所见所想”可以实时展现，让智驾的全过程更易于用户理解，也更让用户安心。并且，新增了智驾行程卡自动上传手机的功能，可以实现随时随地的分享，而车辆中心也新增了智驾统计自定义查看，也可以生成分享页。

值得一提的是，此次全量用户推送的版本基于V4.8.6模型而来，是在400万clips基础上迭代的第16个版本，增加了城市夜景的数据配比。主要在三个方面做了优化：第一，提升了超车场景的理解能力，让变道更积极；第二，提升了导航信息的理解能力，让导航变道的时机更合理；第三，提升了障碍物检测精度，让绕行幅度更合理。

从“无图NOA系统”，再到“端到端+VLM”，一开始在智驾领域似乎处于落后局面的理想汽车，显然已经缩小了和其他车企的差距并着眼反超。事实上，理想汽车在研发无图NOA时，就已经预研端到端架构，提前做好了储备。

“所以这是我们为什么会速度比较快的原因。如果大家觉得牺牲了效率，其实是因为没有找到提效的方法。” 理想汽车智能驾驶高级算法专家詹锟曾在采访中表示：“我们逐渐已经找到了通过自动化测试、世界模型高效验证模型的方法，所以我们才能兼顾速度和质量。”

那么，和此前的无图NOA系统相比，端到端+VLM视觉语言模型究竟有什么技术优势？

首先，端到端不依赖规则式逻辑，具备更拟人化的驾驶方式，拥有老司机般的丝滑体验。以路边起步为例，目前一些车型已经实现了路边起步，但只能在D挡或Autohold状态下可以激活，而理想汽车的端到端模型在P挡就能激活，实现了“上车就能开”，并且依靠更强的freespace规划，不再强依赖车道关系。

其次，整体大幅提升了安全、舒适和效率，能力更强、上限更高。例如U型掉头和环岛通行等这些复杂路况，端到端具备更强的侧向感知能力和复杂道路结构的理解能力，让车辆的行驶轨迹更拟人化，决策也更果断。而在拥堵路况时，变道能力更强，能够即时准确的执行绕行决策，整体反应更像“老司机”。

更重要的是，VLM视觉语言模型具备理解物理世界复杂的交通环境和中文语义的能力，可以辅助端到端解决安全、导航、法规和舒适等方面的自动驾驶业内难题。例如限时公交车道、潮汐车道、可变车道等，曾经无法解决的问题，通过VLM都可以进行准确识别，并正确选择车道通行，在遵守交规的同时大大提升通行效率。

而对于其他像丁字路口、减速带、坑洼路面、夜间无灯路段、学校路段、施工路段等复杂交通环境都能进行准确判断，以语言和UI交互两个方式进行提前告警并及时进行减速，这些都是行业独有、业内首创。

此次端到端+VLM的更新，还对高速NOA进行了优化，针对前方慢车可以更早识别，并果断发起超车动作，让车辆的行驶更高效更安全。而这套全新一代的智能驾驶解决方案，迭代速度更快，还具备全数据驱动、快速迭代的能力。

一路走来，理想汽车经历了显著的成长与进步，从智能驾驶领域的后来者，发展成为行业先锋。如今，它已成为首个将视觉语言模型（VLM）部署到Orin-X芯片的企业，并率先采用了双系统架构。凭借百万辆的规模化运营效率，预计至2024年底，其智能驾驶累积里程将达到30亿公里之巨，训练算力超过8 EFLOPS。这些成就标志着理想汽车正稳步迈向智能驾驶技术前沿，并持续在这一领域实现新的突破，让用户享受到新技术带来的便捷与安全。