摘要:在3月30日媒体采访环节,针对车企自研趋势,周光表示,元戎启行的核心优势在于提供“头部技术体验”,并强调高阶智驾涉及复杂的数据闭环与人才积累,短期难以被车企完全自研替代。他提出,公司定位为“物理AI公司”,致力于通过RoadAGI产品推动AI从专家系统向通才系
在2025年的中国电动汽车百人会论坛,元戎启行CEO周光围绕高阶智能驾驶的技术路径与行业竞争格局展开了最新阐述。
在3月30日媒体采访环节,针对车企自研趋势,周光表示,元戎启行的核心优势在于提供“头部技术体验”,并强调高阶智驾涉及复杂的数据闭环与人才积累,短期难以被车企完全自研替代。他提出,公司定位为“物理AI公司”,致力于通过RoadAGI产品推动AI从专家系统向通才系统演进,并称“智驾只是物理AI落地的首个场景”。
谈及特斯拉FSD入华,周光坦言其V13版本存在“代差级技术领先”,但指出中国企业的本土化数据闭环能力是关键优势,“特斯拉无法在华采集数据,优化效率受限”。对于行业热议的“智驾平权”,他透露元戎今年将推出适配不同芯片平台的解决方案以降低成本,但强调“不会为极致降本牺牲技术上限”,并计划通过通用化AI架构提升商业化效率。
在技术层面,周光认为当前智驾行业尚未进入“大模型时代”,多数方案仍依赖专家系统,而元戎正探索端到端架构与VLA(视觉动作空间多模型)技术,目标是构建移动场景的“通才系统”。针对L3级自动驾驶,他提出“AI能力越强,工程兜底需求越低”的观点,并透露公司已为市场需求推出“缝合式”车位到车位功能,但直言其“技术价值有限”。关于算力争议,他预测未来车端算力需求将持续攀升,“L5级自动驾驶必然依赖高算力与大模型协同”。
以下是采访部分实录,经编辑:
问:在智能驾驶领域,各大车企现在在加大自研力度,作为第三方解决方案商,元戎启行如何应对这种趋势?咱们的核心竞争力在哪里?
问:智驾各家都自研,这个趋势已经看到了,元戎的优势在于我们能够提供最头部的技术跟体验,目前来说自研趋势还是在中阶、低阶,在高阶,甚至在最新的VLA,我相信对于车厂来说还需要一定的时间,另外,这也并不是那么简单就可以自研出来的,有大量的人才knowhow、数据knowhow、训练knowhow。
周光:我们元戎一直在智驾领域希望能够做出最好的AI,我们对自己的定义也不是一家智驾公司,我们是一家物理AI公司,我们希望元戎一直能在物理AI突破,我们衍生的第一个产品可能是智驾,智驾也许是物理AI第一个大规模落地的场景,我们不停地去做更好的AI,直到真正实现AGI,物理世界的AGI,这次我们也发布了自己的RoadAGI产品,希望我们的技术更从专家系统到通才系统这方面的转变。
问:前段时间特斯拉入华,有自媒体文章写咱们国内智驾会落后于FSD一年以上,当时在行业里面引发了很多评论,元戎作为智驾行业比较权威,有发言权,在您看来,真实的情况和特斯拉FSD相比是什么样子的?另外元戎相比特斯拉FSD我们的优势是什么?
周光:从技术层面,也不说什么太多商业话术,我觉得特斯拉V13就是要领先一个代差,但我觉得可能对不同的公司来讲这个代差是不一样的,V12是第一个端到端,过去一年我相信各家都在追赶,部分公司可能也做到了V12的效果,特斯拉出来V13了,的确是有一个代差。
但是优势在于你在中国,我们有中国特色的数据集,正常来说一个人工智能的学习应该是你发现有问题,你采集数据,再去数据闭环,这样可以让你的training set和test set尽量一致。特斯拉面对的问题是,他没办法在中国采集数据,就意味着他没有办法去更新他的training set,但是他每次在中国可以evaluate,你可以知道你test set的score,你去改变(英文),这是一个非常间接的方式去改善自己,这还是比较慢的,我觉得这个也就是仅此的优势。
我们开始也在做V13的架构,我们也希望我们能够快速地把V13这个架构推出来。
咱们都是做研究的人,工程师,说话还是要诚实一点,我们也许能够在中国率先把这个做出来,我们也希望我们可以,中国公司也有这个能力做出V13的这套效果。
今年智驾平权这个词特别火,您觉得元戎今年的智驾方案还有没有降本空间?如果有的话大概是多少?
周光:智驾两个方向的发展,一个是追求AI的天花板,另外一个是把某一个表现的AI系统做极致降本,这是两个完全不同的方向。
之前元戎的形象一直在追求AI的天花板,比如我们走端到端,到无图,大家看到我们在国内第一个做的,去年我们提的是个新图,无图的时候更是对行业有一个冲击,我们2023年推无图,大家全都在说我们是假的,但是我觉得现在是一个时候了,我们既要追求AI的上限,同时也要追求规模化的商业化,我们今年也会有其他的一些solution出来,不同的芯片平台的支持,可以把成本进一步降低。
当然,还是要保证体验的情况之下去做降本,我们不是那种极致追求成本的概念,比如用一个非常低算力的芯片,可能你都不是按照AI的路径来做这个事,这个做法我们肯定是不喜欢的,因为有公司是这么做的,他也会找到自己的生态位置,总有一些客户会选择,因为他特别特别便宜,但是你可能会损失掉的是你持续的能力,我们还是追求AI上限,我们觉得做出来AGI,做出来物理世界AGI的意义对我们公司来讲使命更大,我觉得这是更有意思的。
同时,我们也要把商业化做好,不能商业化的AI也是没有价值的,我们也会把一些成熟的AI放到下一档的硬件里面去,也要做到好用。
自从去年端到端在国内落地之后,有一些厂商就说数据,或者说数据的质量特别重要,有一些厂商说我的数据量多,而且数据质量高,所以一直能保持端到端智驾体验领先,但是我们看到元戎现在落地的量产车数量可能也不超过5万台,去年11月份我们在广州车展体验元戎的方案也挺好的,10公里只接管1次,而且还是非完全接管,我想请教的是在您看来数据或者数据质量是不是制约端到端提升的核心瓶颈?您觉得算法、算力、数据里面哪个更重要?
周光:这个牵扯到你目前处于哪个阶段,我觉得都很重要,今天毕竟我们是在一个算力受限的平台上用的,我们不是大模型的,某公司钱多卡多,我参数是你的10倍,我也不在乎这个事,车上就是100瓦算力顶天了,功耗的限制,我觉得在未来三五年之内1000T就是极致了,在1000T下要做到这么多的事,你还要做大模型,我觉得这个对算法要求很高,不是大家想得那么简单,不是我的车多我就直接硬上就可以。
数据质量肯定非常重要,如何找到高质量的数据也是不容易的,不是拍脑袋,不是车多就出来的,高质量的数据怎么去训练,这其实都是跟着你的模型一步一步走过来的,
问:咱们刚刚也发了一个VLA的视觉动作空间多模型,理想也发布了AD Pro,你们怎么对比?有什么评价?第二个问题,有供应商表示今年和主机厂可能会探讨一块谁来承担责任推出L3,今年L3很热,第一,咱们有没有在做这些准备,比如和保险公司;第二,有没有主机厂向咱们提出要求如何保障这一块?
周光:VLA是指一个上限问题,L3是指一个下限问题,这是两个截然不同的方向。
首先L3甚至都不需要端到端,都不需要这些先进的AI,你都可以做LG,我们也曾经看到,奔驰在德国有自己的L3,有很多限制,L3到底是限制你的功能场景,你极致的兜底,其实理论上来讲,你的AI越好,你需要兜的底就越少,你可释放的区间就越大,这两者虽然费用不同,但是你的AI能力上限提升会极大地简化你去做L3,我们也要看为什么特斯拉他没有强调自己要做L3,以及为什么特斯拉不强调自己要做车位到车位,这都是有深层次原因的。
我可以分享我的一些想法。目前来说,可能国内车位到车位都是建图到无图再到建图的过程,其实从技术层面来讲是没有价值的,前面后面都是靠高精度地图技术,通过工程能力去缝合起来,这是一个“缝合怪物”,AI能力没有长进,在AI的角度来说是没有什么作用的,但是在用户体验上来讲,可能用户觉得有一定的价值,我觉得像特斯拉这种公司他不做这个事,他不会为了取悦用户做这个,他们希望通过技术去解决,真正用AI的能力实现车位到车位,而不是通过用这种技术来实现,我相信我已经解释了。
但我认为这里面更重要的其实还是AI上限的提升,AI上限的提升我们觉得是更重要的,但我们也会迎合市场,我们也会为了这个市场而商业化,也会去做一些,比如我们也推出了车位到车位,也是“缝合怪物”,建个图,背下来,我们指的AI是不带这个东西的,但它也有商业价值,我们也不是一个轴的公司,我们也是要迎合商业的需求去做这样的产品。
问:这个的核心是因为车企要转,想推出L3未来是一种竞争方式,比如现在有一种观点,深圳可能今年在9月份和6月份就会全城开辟L3试点,有的车企会不会要求,比如你是我的供应商,你就得给我承诺我也要达到L3。
周光:我觉得其实做L3之后就牵扯到保险理赔,到底多少钱能够赔得起来,这通过数学是可以算出来的,这也是保险公司的事,以及你的算法大概是在什么程度,你在深圳可以通过各种手段去提升你在这里MPCI的里程,如果说你所有的安全可能都没有交通责任,其实也是L3,比如说我就不管,我就怼上去,关我什么事,反正我也不担责,交给警察来讲,我一分责都不用担,L3更多还是工程问题,我觉得更多是工程问题,只不过AI能力做得越好,可能这个工程难度会降低,比如说以我们家的弱专家系统去做L3,你可能需要非常大量的工程,比如千人级的工程团队,比如说你用generalist,我们认为下一代的这套AI系统,可能你做这个兜底只需要百人,甚至你的体验可能也会更好,我觉得这是一个选择,但肯定是我们也会针对这个市场推出相应的产品,这还有商业上的考虑,也不能纯就是愿景,我觉得一个纯愿景的公司也不会成功,但你公司一定要有愿景,你要有你自己的AI追求,有自己的愿景,同时也是要去满足这个市场的需求。
问:大模型和端到端是什么关系?
周光:必须得端到端才可能是一个大模型,我重新组织一下语言,端到端就是指你所有东西都是靠神经网络来决策,大模型天生就是端到端的,大模型有自己的预训练、后训练、alignment,它的数据偏好都不一样,它不是以前那个范式在做了,我觉得这个变化还蛮大的,大家现在喊口号都喊我叫智驾大模型,我觉得优质的数据就是10.4D(音),这个回答是一样的,喊口号谁都能喊,我也喊我要做出GPT-6,喊口号谁不会喊。
提问:周总好,理想之前也说过,可能对于AGI早期两年商业模式不太看好,想问问你的观点,包括元戎在实现RoadAGI这条路上怎么平衡好短期内高昂的研发投入所带来的盈利波动问题?
周光:我们做RoadAGI更多是我们觉得你在实现strong specialist之前,需要让你的系统能通用,我觉得这是不矛盾的,你如果没有GPT-4这样的通才系统,也很难做出来今天的o1这种专家系统,AI For Science,这是必须的,我们做通才系统的目的是提升AI的智商,我可以认为是这样,这个不冲突的,我认为只有做这个东西,大家一直瞄着车,一直瞄着这一个场景,我觉得是不够的,因为现实世界中你想开好车,你不可能对物理世界其他东西视而不见。
问:举个例子。
周光:如果说你不能理解什么叫作火车路,什么叫火车,是不安全的,我有典型的一个例子,在红绿灯,大家都在等红绿灯,这边车子在排队,正好排队的时候在铁轨上也可以排,这个车就排在铁轨上了,如果你缺乏了对通用世界的理解,这是安全的吗?你在铁轨上等红灯,一等两分钟,你怎么办?我觉得实现自动驾驶的终极目标,你不可能对普遍的物理世界没有一个通用的认知,它需要对很多东西有个通用认知的,如果你只在车这个场景堆是不够的,我认为要做出来一个,我们也不像大模型这样追求985的专家系统,我们追求一个幼儿园级的专家系统,说实话,真正的智驾系统对其他场景理解是0,是0理解,我们对物理世界除了路上的车道线,几辆车、人,一些障碍物的理解,我们是0理解,塑料口袋跟一个石头能一样吗?这些我们是什么做法呢?我们的专家系统就是雇一堆专家专门标一下塑料袋,标一下箱子,再标一下石头,你按照这个做法永远是不行的,一定得让你的系统通用化,今天大模型表现出来的对各类场景都能理解,这个通用的能力让我们觉得这是实现L5级自动驾驶必需的,也不是你一直堆就堆得出来的,不是的,一定是要有一个由专到广的过程,最后才能实现L5。
这是我们对AI的认知,不冲突的,没有任何冲突,因为你不这么做,我认为你是做不出来的,你绕不开一个通用的东西。
问:您的意思是RoadAGI本来就是要做这些东西,不用增加额外的成本?
周光:对,不用增加什么额外成本。
如果我们做的东西是需要增加非常多额外成本,说明我们做错了,只能说明我们走错了。
问:特别像五六年前大家谈RoboTaxi和L5的感觉,大家说5年之后一定能达到,其实这个时间是一直在被往后拖的,中间突然来到了L2+和L3,到现在我感觉从入行以来,这个时间是一直在往后延,有点像你刚才说的大家还没有进入到大模型时代,明显感觉到之前大家可能觉得路走错了,你现在在往大模型时代去的过程当中有没有可能会路走错的情况?
周光:当然会走错了,没有人是能够100%对的,我只是说大模型经历了一个专家系统到通才系统,到真正强专家系统的阶段,我认为这是一个AI发展的阶段,我觉得智驾、机器人会经历同样的阶段,它也是弱的到通用的,再到强的,强的才是我们人类需要的,现在还是在弱阶段,我认为接下来要做通才,不做这个也实现不了最后的。
你要跳出来车的领域看这个事,现在至少语言这一块已经证明了就是这么过来的,今天的车子是不是要走同样的范式?我们现在从端到端开始做大模型,不应该follow同样的范式吗?还是回到那句话,都还没有进入那个时代,规模没有任何用,你不是在这个时代的。
问:waymo呢?
周光:waymo属于是专家系统。
问:我感觉您对AI确实有比较前沿和打破非共识的想法,我也一直关注AI,比如大家对通用模型到底怎么发展,原来大家走的都是OpenAI那一套,就是Scaling law端扩大规模去做,但是DeepSeek出来以后,可能在算法和架构上做了一些创新,比如像有人觉得世界模型才是通用模型的一个路径,所以他对现在所谓的大模型都觉得不可能达到AI领域所谓您刚才说的通用或者通才的情况,我想问一,您对AI接下来的趋势,比如它达到通才到底需要的是什么?如果想要实现您说的在智驾系统领域的AGI,或者您说的通才,它所需要的因素跟AI要往通用这一块走的因素会有什么样的不同吗?
周光:首先,GPT就是通才,只不过是比较弱的通才,现在GPT数理化都能考。
问:但它更多还是基于大语言模型。
周光:通才是有个限制的,像你说的,我们要做的通才是泛指在移动里面的通才,拉到时空域全部拉通是更大的通才了,今天在语言层面,GPT出来之前就没有通才,不存在,专才都是很傻的,你在语言里面实现通才,才能在语言里面实现非常强的专才,在物理世界其实也是一样的,首先你得有一个相对通才能力的东西才能实现最终的专才系统。
你指的是更大的那个通才,你指的是final AGI,包含了语言、包含了物理世界、包含了人的深层做梦,那是最终的AGI我觉得。最终的AGI现在还没有,这波技术突破是支持不了到那个程度,但是我觉得这波技术突破是可以支持这种现实场景下的强专家,这个其实已经证明了,你看现在在语言层面,做数学题在奥赛金牌的水平,这难道不是一个强专家吗?它在语言层面就是985,它就是一个journalist,我认为是这样的理解,你都可以定义,你的定义更大,哪怕你能做梦、能说话、能高考,你也不叫通才,我说你得全能全知,我们都可以define,这都是一个conditional AI。
来源:AutoR智驾