版权声明:本文版权为网易汽车所有,转载请注明出处。
网易汽车4月17日报道 随着基础模型的发展,智驾玩家们加速拥抱物理AI。
“智驾只是物理AI的初始形态,绝非终局”,在近日举办的2026智能电动汽车发展高层论坛上,卓驭科技CEO沈劭劼表示,“未来存活下来的智驾公司,都将转型为移动物理AI公司。 ”
他强调,“这不仅是战略判断,更是生存判断。”
![]()
沈劭劼将智驾方案的演进划分为三个阶段:第一阶段,大家依靠小感知模型+高精地图+规则堆砌,跑通了40分的基础能力,但每到一个新城市就得“开城”重新刷题到80分,成本巨大,且永远达不到满分。到了端到端时代,行业通过数据驱动将通用基础能力提升到70分,再加上少量泛化能达到90分好用水平,但如果要出海,面对欧洲与中国截然不同的路权文化和驾驶风格,各个国家一起的泛化成本仍然很高。
也因此,卓驭希望做出开箱即满分或开箱即95分智驾方案。2025年末,卓驭提出了移动智能基座构想,其核心正是具备涌现能力的“原生多模态基础模型”,技术内核是在最底层就完成对物理世界通用规律的预训练。
这个被卓驭定义为移动物理AI技术底座的模型,是想打造一个从出生起就看过全世界如何开车、如何行走的“老司机”。它不再需要针对不同车型、不同国家做大量的后训练,而是追求一种近乎“开箱即95分”的Zero Shot零数据迁移能力。“我们会在年内把该原生多模态基础模型推送到乘用车和商用车重卡上。”
卓驭的愿景,是在移动物理AI时代成为其中重要的基础设施。
在被问及“价格屠夫”这一行业标签时,他直言,“(说我们)光卖便宜货我不认,但供应链管控能力强,我认。”他提到,面对今年内存涨价潮,卓驭早在去年下半年就未雨绸缪囤货,确保交付不断链。
对于是否可以跳过L3直奔L4,他的回答也是肯定的。从技术层面讲,基于具备涌现能力的原生多模态模型,可以达到L4技术的标准,从非技术层面看,L3事故责任划分模糊,“L4责任划分会干净很多”。
以下是论坛采访实录:
问:原生多模态基础模型与业内其他端到端模型的核心差异是什么?
沈劭劼:关于基础模型以及跟现在端到端的区别,可能这个回答会稍微长一点点,也是早上那个演讲,由于时间比较晚,也没有讲太多。
我说现在端到端本质上,首先,它是一个模型完成整个驾驶任务,但是这个模型的规模并不是很大,可能就是几千万到几亿参数之间的规模,这个模型需要大量专家数据,就是很好的驾驶数据进行训练,当我这个驾驶数据足够多,而且覆盖场景足够全,足够好的时候,这个模型是能够开得很好的,这没有问题,这是现在端到端的技术。
但是这个技术会带来一些问题,最典型的就是如果遇到一个场景,它的训练驾驶数据缺失,中模型本身并不具备自动泛化到它完全没覆盖过的场景。我稍微举个例子,在中国可能不是太明显,例如说我拿去出海,比如中国跟德国最大区别是什么?不是交通规则、标志这些都不同,最大区别叫作路权观,中国开车的路权观是极弱的,基本就是谁能挤谁上,但是德国的路权观很强,规则感很强,当我们直接把中国模型拿去德国用的时候能不能用?能用,会被骂死,这就是所谓的中模型出国,进行出海泛化带来的问题,交通灯这些都是小事,驾驶风格是大事。
我如何适配国外驾驶风格呢?能,我在国外弄30个人采一年数据重新训练一遍就能解决,一定能解决,但这是有代价的,接下来我如果去全球各个国家训练,是不是每个地方都得这么来一遍?这个成本有点受不了,毕竟不是全世界每个地方都像中国这种统一大市场的,统一大市场就是驾驶风格也类似,一次性就解决了,这是目前所遇到的限制。
再往后,原生多模态大模型的核心理念在于,首先它模型足够大,大到假如数据足够多的情况下,它能具备出现涌现能力,也就是像现在数字AI的语言大模型涌现能力,并不是它能做的东西全部是数据里面必须精准覆盖,它具备自己产生一些新东西的能力,具备涌现能力。
同时,这个模型能够吃进除了专家数据之外的别的数据,我们现在训练的除了专门智驾场景数据,我们也会把互联网数据,甚至移动机器人的数据,甚至一个人扛着相机在路上走的数据都OK,把这些数据都喂进去,这个模型预训练阶段把尽量多的知识灌进这个模型里面,这个知识不一定是在中国的路上,也可能在外国的路上,反正从互联网扒,把尽量多的知识灌进去,让这个模型原生就把这些东西学会了,后面到每个场景只需要用一些很小的后训练数据,相当于是激活它一下,它就能够用得了,这是本质的区别,模型规模也会大很多。
当然你说这个东西是不是卓驭发明的?我也很老实地说,不是,特斯拉肯定走在前面,现在业界内已经完成了这种状态,但是至少在车里面完成了这种状态的是特斯拉FSD V14以及小鹏VLA2.0,但是跨垂类好像暂时还没有。
问:中国智驾Tier1在欧洲立足的最大挑战是什么?卓驭欧洲总部启用后全球化路径是怎样的?
沈劭劼:这个和刚刚问题的回答,比较相关,首先,有一些是目前已知而且很显然必须要解决的,但其实好解决的,第一个,特殊交通标志,但这个好办,稍微采点数据就能解决,第二个,数据合规,说穿了就是这里有个还不错的模型出去,各种后训练数据就别传回来了,这个东西有点麻烦,但是有现成路径能解决,对应的欧洲那边像主动安全这些要求,既然有标准就能做,而且也不一定要在外面做,在国内只要标准相同都能做,真正麻烦的就是刚刚说的路权观,这是驾驶风格的区别,当然有两种,一种是用现在的模型,比如我们现在高悟性端到端4.0拿出去,在海外采数据进行后训练,目前我们至少在欧洲某些国家也的确跑得通,但是有一点点不可持续,所以用后面的技术范式,用一个大预训练模型直接拿出去激活就行了。
问:您提到目前落地原生多模态大模型的厂商有特斯拉FSD V14和小鹏VLA2.0,您对原生多模态大模型的具体定义是什么?马斯克说V14可能还是小模型,V15才是更大模型,您怎么看?
沈劭劼:首先模型本身一定是在越来越大的过程中,任何下一代描述前一代其实都叫小。 我这么理解,如果这个模型本身只能够依靠专家数据,例如说只能够依靠乘用车单一领域专家数据,别的数据它都没有办法用进去,或者一用就会变得更差,这时候应该还没有到原生多模态大模型的特质,当然,可能马斯克觉得v14还不够好,还有v15,这肯定,但至少v14目前来看应该是具备了这个特质的。 另外,一方面它能不能吃进各种各样的包括非专家数据之外的数据,以及它能不能原生去吃进各种各样的模态,包括视频、语音、文字方方面面的东西,把这些数据都吃进去,来进行预训练。 这里可能更跳出原来的VLA范式,大部分这些原生多模态大模型里面其实并没有一个显性的L的输出,换句话说,车的决策其实并不依赖这个显性的L,当然里面会有对应的模型,会体现出场景的理解,但它其实是会在前空间里面隐性地做,当然你说如果他要看L行不行?可以,我专门训练另外一个解析出来给人看就好了。
![]()
问:引用无人机、机器人等跨场景数据训练移动基座模型,对乘用车来说安全吗?基础模型对数据精度的要求是怎样的?
沈劭劼:首先,安不安全这个东西最后模型有自己的准出体系,目前每个做端到端方案公司都已经建立一个准出体系,只要这个模型能过就是安全的。
另外,跟原来想的稍微不一样的是,这个模型本身随着变大以后,它应该对于绝对的精度变得越来越不敏感,我稍微举个例子,不一定合适,像教不同孩子做作业。
如果是一个学习不是太好,脑子可能不是太聪明的孩子做作业,这时候应该怎么做?孩子做完了我帮他改,这时候叫作规则兜底,我是那个规则;中等聪明的,或者中模型的样子,应该叫作他可以做作业,我也可以刷题,但是我得给他不错的这些题让他一个一个刷,最后考试的时候如果这个题刚好跟他刷过的差不多,他也能够考出很好的成绩,我不断刷题是能够考上985的,一旦题没刷对,他可能发挥就会出问题,这更像是当前状态的端到端的样子,对数据要求非常高;
对于真正的学霸,总会出现一些神人,我也不需要刷题,就给他几本书,给他几本教材,或者各种书他自己就悟出来了,这时候你问这些天才的训练数据干不干净,安不安全,他训练数据一点都不安全,他什么都看,但是人家通过各种东西都看完之后就是能悟出来,最后能让他很轻松考进985,考出好成绩,甚至做到很多别人不能做的事情的能力,对于模型也是一样,第二档状态应该大家都差不多做得到,接下来大家肯定都追求下一个。
问:您有关注过理想的基座模型吗?
沈劭劼:现在应该说,我刚刚说包括特斯拉FSDv14、小鹏VLA2.0这是属于已经做出来的,当然,我们绝对不是唯一一家想到做这个,您可以理解为现在大家所说的基座模型概念是类似的,更多是一个进度的问题而已。
问:2024年从大疆独立出来,是想做什么不一样的?另外,行业内说卓驭是价格屠夫,您认可吗?底气是什么?
沈劭劼:首先,为什么要从大疆拆出来?本来就是因为它有点不一样,它本身就是一个B2C和B2B的区别,本身是偏向消费级的周期短一点,以及偏向汽车的高安全性,而且周期也比较长,对供应链稳定性,以及受国际地缘的影响会有这么大的东西,本身就是因为不一样所以才会发生独立运营。
当然一样的东西也要保留,比如大疆的“激极尽志,求真品诚”的价值观也是一直继承下去,内部看起来整个公司运行氛围还是很像原来的样子,还是追求极致产品的风格,这应该算是第一个,当然后面你说,包括我们拆分之后会独立进行融资,往后可能会有一些上市计划,显然跟大疆不一样的是,我理解这其实是一个很顺理成章的东西,任何一个公司差不多都是这样子的。
第二个,价格屠夫。这个我可能会稍微展开讲长一点,第一个,理解价格屠夫这四个字到底是什么意思?是光卖便宜东西,还是你的成本控制能够很好?这两个其实不是一件事。
光卖便宜的东西的意思就是不能卖贵东西,只能卖低端货,不能卖高端货,这个我肯定不认,要做好的产品肯定是全矩阵的,不同价位的车,不同场景需要用不同方案,现在很显然的一个趋势是随着模型能力越来越强,需要的硬件也会越来越多,但是性能提升比价格提升更快,毫无疑问,对于第一个是不是光卖便宜东西这件事,我直接否认了,以后我们卖的东西会越来越贵,但是性能上升的速度一定会大于价格上升的速度。
关于第二个价格屠夫应该叫供应链管控能力,这个我认,毕竟作为业界比较少有的,新生代智能驾驶公司具备软硬件一体能力,真正具有供应链管控能力的公司是比较少见的,由于各种各样原因造成的供应链波动我们也有一些抵抗措施,比如现在这一波内存涨价,我们也是在去年下半年未雨绸缪囤了一大堆,保证我们今年交付不会出现问题,我觉得这些也是某种程度上作为价格屠夫的一个体现,毕竟纯软件公司对这种情况,除了让合作伙伴加价买之外,好像没有其他方法,但我们有办法去解决。
问:这也是卓驭的底气吗?
沈劭劼:对,今年我能供得上货。
![]()
问:面对智驾平权趋势(比亚迪、小鹏、零跑等将智驾下探到8-15万级),卓驭如何保护自己的护城河?
沈劭劼:我觉得智驾平权本质上并不是把智驾做得越来越便宜,或者把车做得越来越便宜,它的本质是智能化在整车成本里面的比重越来越大,从而一个车,例如都是10万块钱的车,原本10万块钱只愿意给智驾分2000块,给别的什么东西分更高的成本,现在由于智能化以及大家接受度越来越高这个比例产生了变化,从而产生了智驾平权,但是真的看现在车上面用的智驾硬件是越来越多的,这个东西是基本物理规律,你用的东西多了就不可能便宜。
问:卓驭未来是否有自研芯片的计划?如果不自研,如何保证供应链稳定?
沈劭劼:首先,供应链管控的核心并不在于某个特定零部件,而是在于不能缺,这个系统只要缺了一个零件就造不出来,它是一个完整性考虑,不是单点的,我理解建立供应链能力就是得用各种各样的方法未雨绸缪地保证这个东西不会由于某个东西缺而供不上,当然芯片是最重要的,可能今年不是,今年更重要的是内存,我们自己提前囤了不少。
我们肯定不会自制芯片,就是自研自制芯片,现在市面上有这么多芯片合作伙伴,具体名字我不点了,我还是那个想法,靠谱的端侧芯片供应商的数量大于靠谱的智驾方案供应商的数量,通过去找合作伙伴一起做这件事是能够有一个比较好的解决,当然可以不单指是单纯买卖关系,也可以是深度定制关系。
问:目前,除了乘用车,其他领域如商用车业务进度如何?
沈劭劼:首先,乘用车肯定还是我们的基本盘,除了去年已经公布9个客户之外,目前我们又多加了3个新的客户主体,不是3个新的品牌,是更大的(规模),但暂时可能还没到具体公布logo的时候,这个就留点悬念。
重卡方面,目前中国排名前6的商用车公司全部是我们的客户,第一个重卡车型会在6月份开始量产,总共有小几十个车型,今年6月到明年上半年之间陆续量产。也是基于原生多模态基础模型,也在Robotaxi和物流车方面也有布局,上面跑的都是同一个模型,当然会加上很多L4需要的安全冗余相关的东西,对应也有合作伙伴,这些会在7月份试运营。
乘用车和商用车的商业模式有点不同,乘用车是基本盘,要不就是Tier1,要不就是跟合作伙伴加起来是个Tier1的推进;商用车基本就是当Tier1,商业模式和乘用车是一样的,但是对于Robotaxi和物流车来说,就是一个合作伙伴,一起开发运营分利润的方式进行,目前业务是这样。
整体的发展,包括拿新的客户来说,新的车型定点速度是超过我想象的。
问:卓驭如何通过通用智能能力实现“移动智能基座”的跨场景复用?
沈劭劼:首先,应该说我们的证据也是比较多的,其中最重要的,我最近一直在拿出来说的重卡,虽然都是铺装路面,但是毕竟一个满载的重卡重量是乘用车的几十倍,车长是乘用车的几倍,行驶的风格也有非常多的不一样,我们能把这个东西迁移,事实上能够获得这个行业里面绝大多数TOP客户的认同,我觉得这本身是一个证据,有了证据,所以说这个怎么完成,应该我不太需要去质证为什么行了。
再往后,具体是怎么做到呢?其实是一个比较偏体系化的能力,首先模型本身的基础能力得够强,得能够达到一个足够拟人化驾驶的程度。为什么这么说呢?首先第一步,人类驾驶,一个好的司机,他本身的加减速是倾向于比较平缓,甚至对于很多危险的东西会倾向于一种预判,而不是最后来一脚急刹的方式去解决,这个在乘用车方面可能是见仁见智,是不同的驾驶风格,都可以,但是一旦到了重卡的领域,这反而会变成一个非常非常重要的东西,因为重卡不能急刹车,本身这个模型的特性就已经从第一天开始比较适应这种迁移。
另外,除了模型之外,它有很多上下游车型适配的东西需要极强的工程能力,第一个,几十倍的车重,而且几十倍车重随着有没有拖头,有没有后面的挂厢,以及挂厢的重量它会产生很大的变化,我的控制算法怎么进行适配,控制算法现在可没有太多办法用模型,这个就是靠控制算法工程师的硬实力去做,这也是从之前这一路下来的积累,是一个比较有优势的,我们本质上还是一个非常懂怎么去控制机器人的机器人背景的公司。
另外一个,对于其他垂类的硬件要求会或多或少都会有点不一样,比如说在商用车走的电子电气架构是24V,乘用车是12V,这中间改动并不大,也不算小,反正是有改动,而且寿命要求不一样,商用车基本要求的是完整持续运作的寿命周期,而不是乘用车这种用一下停一下的寿命周期,这些都对硬件带来很大的不同,这时候我们自己是具备,你有不同我直接做了就行了,反正有标准我就对应着进行开发,而且开发速度很快,但是对于一些可能相对硬件能力比较缺失的公司来说,要不就说服另外一个合作伙伴跟他做,要不还没开始干活先进行扯皮,至少这个在我们这是不存在的。
所有这些加起来,它是个比较体系化的能力,最终决定了一旦这个新的垂类有机会我们能比较快地切入,当然,在各种垂类里面,我们也并不是什么都走得最快,比如Robotaxi我们就是后来者,但是后来者也有后来者的好处,因为我们在某种程度上我们跳过很开始需要很重的高精地图开城的阶段,我们直接跳到用原生多模态基础模型,能够以比较低的代价进行部署的阶段,后有后的优势和劣势。
问:重卡方案与乘用车能复用的部分和不能复用的部分有哪些?
沈劭劼:首先,基础模型其实是同一个,但是对于一些具体驾驶场景的应对会有强制约束,或者用现在AI Agent的模式,应该叫作不同的Harness Engineering ,也可以这么说,比如像乘用车,首先重卡只在高速上跑,不会做城市领航,但是高速上比如乘用车遇到加塞,我的第一反应是要减速,来确保不会撞上,重卡不是这样的,重卡停不下来的,遇到加塞是不能停的,你能做的只是知道别人有可能加塞的时候按喇叭,因为它的减速度有一定的限制,不能减下去,按喇叭,万一真的最后遇到危险,其实就会变成一个类似控制的问题,但是这时候它的难点就变成,这个模型如何具备一个防御性驾驶的能力,能够很早地预判到会不会有加塞,我变道也好,响喇叭也好,反正不能用急刹车的方式解决这个问题。
我再举一个例子,重卡其实做智驾除了安全之外,还有一个很重要的东西是省油,这个怎么省呢?路都有上坡下坡,我如果上坡的时候一路猛加速,下坡的时候速度很快一路猛刹车,这个就是又费油又费刹车,老司机的做法一般就是上坡的时候慢慢上,刚好上到坡顶的时候速度是最慢的,下坡的时候用最慢的速度往下,又省油又省刹车,这个并不难做,因为地图里面有高清路况信息的,我把这个高清路况信息通过一定的曲线变成我的速度规划,写进这个车里面就能做,所以整体来说,在软件端对它有很多不同,但是万变不离其宗,像刚刚说的这些特殊场景它都是能适配的。
另外它对于感知距离的要求会高很多很多,所以重卡上面我们目前所有的方案都是带激目系统,就是可变焦激光雷达,取决于不同的安装模式,如果装舱外能够做到400米左右,舱内也300多米左右,它就是一个长距离的感知,看得见,你才有可能制动。
还有刚刚所说的它的基础芯片跟乘用车用的是一样的,但是对于一些电子电气架构的电压会有不同的,这样一些比较小的,二次再开发就好了。
问:7月份L4试运营处在什么阶段?是商业合作还是样车试点?
沈劭劼:我们有跟运营合作伙伴一起合作,早上PPT里应该大家也看到logo了,当然对应的发布可能再往后,可能车展的时候我们进行发布,我可以明确说的是我自己不做运营,我们会做L4的智能化能力,但是我不做运营,术业有专攻。
![]()
问:有一种声音要简化掉L3,从L2直接跨越到L4,卓驭怎么看?
沈劭劼:我同意,就是跳过L3。
问:能展开说一下吗?包括规划和部署。
沈劭劼:首先,L3这个产品形态规划本身并没有错,它更多是在实际运营过程中会出现一些比较难明白的东西,比如给消费者10秒钟进行接管,万一我睡着了,接不了管,这个责任到底归谁,有一些实操状态下比较难说清楚的东西,但是如果一个系统真的能够做到10秒钟不接管,实际上离L4也没有多远了,但是L4责任划分会干净很多,这是非技术层面的。
在技术层面,原来大家会说L2、L3、L4对应用的技术会不一样,毕竟发明L2、L3、L4描述时候是几十年前的事,那时候还没有大模型存在,但现在大家已经非常确认,用更厉害的具备原生多模态,具备涌现能力的这些模型,通过一些合适的远程运营、安全兜底、传感器冗余、车的冗余,以及模型周围的东西加一些能够做到L2、L3、L4基本同源的技术,在这个同源的技术下,那我肯定就用一个同源的技术去做两个状态,一个是L2,这个当前已经有的,另外一个就是所有做智能驾驶公司的梦想,就是L4,把它给做出来就好了。
问:L4的实现需要很多条件,展望一下什么时候能实现?
沈劭劼:现在L4是一个已实现的东西,大家在路上也能够打到无人Robotaxi,这个也看怎么进行普及,现在路上是有无人出租车的,无人出租车现在的确需要每个城进行开城,需要进行部署,需要进行验证,确保事故率低于一定的值才能够上去,但是这个东西是一个现实存在的,你说普不普及本质上是成本考虑的问题而已,剩下就是基于更重高精地图的技术有某一个成本线,这个成本线决定了这个普及度可能以某个曲线来进行普及.
再往后,随着基础能力的提升,需要的后续泛化的降低,我理解它的成本线就会降低,普及度自然会更快。但是无论如何并不是一个0或者1能不能实现的问题,甚至我们预想以后,当然这只是猜想,以后应该会出现比如乘用车,我平时买回来,这个车上各种传感器,这些模型都是满足L4能力的,但是它在一个没有被L4认证过的区域里面就是以L2+形式运行,一旦进入这个区域之后,消费者可以选择让这个车接管,但接管并不是完全让车接管,这时候得有云端监控平台来进行,相当于是由云端监控平台进行接管,这个时候这个车进入L4模式,在L4模式下每用一定距离就需要给一定的钱,变成自己拥有的出租车,可能会是这么一个模式,一台车可能会同时具备几种运行模式,我觉得不一定是完全以Robotaxi方式进行。
