北京车展首日,卓驭科技正式推出了行业首个原生多模态基础模型,围绕“移动物理AI”,让智能驾驶将不再局限于乘用车领域,商用重卡、物流车、Robotaxi,甚至是车载无人机,都能用上这一套移动物理AI。
雷科技/电车通收到卓驭的体验邀请,能在北京车展展馆外抢先感受搭载这套原生多模态基础模型的红旗HS6,在北京市区路段的真实表现。
图源:电车通摄制
据官方介绍,这个模型在底层完成对物理世界通用规律的预训练,支持视频、文本、动作、语音、地图等多模态信息统一输入。由于所有模态均在统一框架下完成训练,语义翻译带来的延迟与信息损耗被消除,其最终目标是做到跨垂类开箱即用、全球零泛化或少泛化。
以下是电车通的体验分享。
上车后的第一段路,是展馆外围的主干道。路面宽阔、标线清晰,车流虽然密集但秩序良好。这套搭载11V1L1R感知方案(含激目2.0)和Thor-U芯片的系统,在这一简单场景下显得游刃有余,跟车距离控制得恰到好处,加减速线性自然。
图源:电车通摄制
真正让人提起精神的,是第二段路——展馆背后的狭窄小路。
这样的路况尤为真实,双向单车道窄路两侧停满了车,对向不时有来车需要错位通行,电动车和外卖骑手在车缝中灵巧穿梭,偶尔还有行人从路边停靠的车辆缝隙中突然探出。面对这些场景,许多智驾系统早已束手无策。
面对一条被违停车辆压缩到仅剩一车宽的窄道,系统以一个干脆的超车动作绕行前车,并没有像许多系统那样犹豫不决地原地“思考”几秒,整个过程从减速、观察、转向到加速一气呵成,电车通(ID:dianchetong233)坐在后排几乎感受不到任何顿挫或者迟疑。
图源:电车通摄制
这样的流畅表现,其实已经呈现出原生多模态基础模型和常规VLA路线的本质区别。
VLA模型本质是各种技术拼接后的结果,视觉先看懂,翻译给语言,语言想明白,再转译成动作,有点像人类思考问题的过程,我看到前面有障碍物,思考这是什么,然后做出怎样的决策。
原生多模态基础模型则不同,视觉、语言、动作在底层就完成了联合预训练,消除了语义翻译带来的延迟与信息损耗,从而直接就能做出反应。
图源:电车通摄制
有一点让电车通印象深刻,就是车辆准备右转时,此时有一辆电动车从车辆右侧直行超过,要是以往的智驾系统,很可能会急刹车,但卓驭这套大模型,只是微微降低车速,算准时机就通过,从容得像十年驾龄的老司机。
要是在几年前,智驾系统考虑到安全性,在这种情况下肯定会突然急制动。如今这个表现,已经与老司机的驾驶习惯基本一致。
图源:电车通摄制
稍显遗憾的是,虽然此次体验已经特地选择了展馆附近比较窄的道路,但旅途没有遇到太多复杂路段,没办法将系统的大部分能力展现出来。
试驾结束之后,电车通与现场的技术人员交流后了解到,这套原生多模态基础模型通过量化蒸馏技术,可以适配从高通SA8650到地平线J6M等中高算力平台,从而支持乘用车、商用车、物流车等多垂类部署。据规划,这套系统将在今年8月达到量产状态。
对于智驾系统应用在商用车和物流车上,电车通(ID:dianchetong233)十分期待。
图源:电车通摄制
一方面,为了多挣碎银几两,货车司机常常需要长时间驾驶,智驾系统能有效减轻他们的驾驶负担,降低疲劳驾驶的风险,提高运输效率。另一方面,物流车的配送任务繁重,智驾系统可以实现更精准的路线规划和调度,减少配送时间和成本。
由此看来,卓驭原生多模态基础模型的长远价值得以充分体现。
(封面图源:电车通摄制)
2026第十九届北京国际汽车展览会将于4月24日至5月3日在北京中国国际展览中心(顺义馆)和首都国际会展中心(新国展二期)举行,本届车展以“领时代·智未来”为主题,集中展现汽车工业的更多黑科技。
比亚迪、小米、鸿蒙智行(问界等)、小鹏、蔚来、岚图等头部品牌集结,多款重磅新车首秀;地平线、Momenta、卓驭等供应商集体秀肌肉,AI大模型深度赋能,高阶智驾、动力电池、超快充技术等前沿科技集中亮相,看点拉满!
雷科技旗下「电车通」将派出报道团直击现场,以“关注电动车,更懂智能化”的专业视角,带来一线独家报道,敬请关注!