【理想Al Talk第二季 李想面对面 五 关于 VLA 会是否是终极架构的讨论】
1. 什么样的corner case(长尾案例)是可能端到端加VLM(视觉语言模型)架构无法解决,而VLA(视觉语言行动模型)是可以解决的?
- 我觉得有两个。
第一个问题是它对复杂东西的理解,比如这有一个复杂的修路,如果是规则算法可能就会撞上,如果是端到端可能停下来,但它不知道该怎么干了。如果是VLA(司机大模型)就能轻松解决,而且我不需要有真实的场景,甚至我可以直接生成,然后来数据来进行训练,因为它能够有理解能力了,它并不是只是看到一个景象,就做出一个结果。哪怕最开始这个场景没有办法处理,但我保证三天之内相关的这种场景都能处理,因为我可以拿这东西来生成数据,来进行训练。
还有很难的一点是跟人沟通。比如说我们会经常遇到一个在一条路上三条道,最右侧的车道是公交车道,然后又是限行,但是公交车道长久没有维护了,那个印刷已经不清楚了,所以它就会在那跑,虽然你可以通过一个调整说,回到中间车道,但它过一阵又跑到那条车道上去了。如果是人类有了Agent(智能体)以后,我可以跟一个Agent 讲,接下来这条道路一直在中间行驶,直到它在导航的时候走了下一个。包含如果跟导航错失了以后,端到端就不知该怎么办了,但是VLA(司机大模型)在小区里可以漫游。在一个开放空间里,它可以先处理完以后,最后再跟导航调整以后的进行汇合,它跟人类完全一样的了。只是今天可能它作为一个人类,能力还没那么强,还有一个成长的过程。
2. 今年都会是这个状态吗?
- 还是看整个训练的一个进度,但它泛化能力是完全不在一个量级上了。
3. VLA(视觉语言行动模型)是终极的架构吗?还不会有新的架构?
- 我自己认为VLA(司机大模型)能够解决到全自动驾驶。
但是VLA(司机大模型)是否是一个效率最高的方式?是否有效率更高的架构出现?我打个问号,我认为大概率还是会有的。因为VLA(司机大模型)还是基于Transformer,那Transformer 是不是一个效率最高的一个架构?我觉得这个其实后边不知道。
4. 在你看来,它是现阶段效率最高的架构?
- 我觉得它是能力最强的架构。
因为现在能力差距太大了,今天辅助驾驶的这些规则算法、端到端跟人类差距还是太大了。然后我觉得它是最接近人类的,甚至有机会超过人类能力的一种。那它是不是效率最高的方式?其实是打个问号,因为它今天对算力的要求还是很高的。
5. VLA(司机大模型)跟最后可能形成的最终大统一模型的关系是什么?
- 我觉得还是会有一个效率的问题,我的意思是,我们虽然有模型,但我们从来不放弃工具,因为工具是增加确定性和提高效率的。
我还是举一个清晰的一个例子,因为团队很多时候太想用模型解决一切问题,那这时候就会出现类似一个现象,比如今天当然VLA(司机大模型)解决很好了,其实我们在使用 VLM在解决ETC时候并不好。
因为VLM(视觉语言模型)对于位置的判断是很糟糕的,所以它如果是两到三个ETC,然后我怎么进入其实非常容易判断,其实就是这个左中右。但如果像京承高速这样的机场高速那样的十几个ETC,它很多时候就不知道怎么处理了,就开始非常混乱了。我们团队太希望用模型去解决问题,就是说不停地去给VLM(视觉语言模型)喂更多的语料,更多的东西,其实都没有解决这个问题,因为这是VLM(视觉语言模型)的那个架构问题。
然后我跟团队说,那解决ETC为什么不能用规则算法?因为最多的也有 15 个口,对吧? 15 个口对于你们而言,写一个程序基本上一周之内就能完成,甚至三天就能完成。
然后以及我们的准确性更高,所以它就是个好东西,它就是个工具。然后如果是一个确定性的,能够拿规则去解决的,其实它意味着更低的能量消耗、更低的算力消耗和更高的准确性。那我觉得为什么不用?所以团队很快就把问题解决了,我们在ETC就非常的稳了。其实一周都不到就解决了,过去的时候解决了三四个月都解决不了的,成本很高的方式解决不了的。
所以我说就是我觉得真正往下去落的时候,很多时候还是要考虑效率,就是今天DeepSeek之所以受到全世界的瞩目,很重要的一个原因还是因为它的效率变得更高了。
6. 特斯拉FSD真实的进入了中国,对你有没有什么影响?
- 我们自己一个判断和从实测过来的话,他们大概在用12.5之前的模型,并不是特斯拉真实能力,距离特斯拉真实能力还有巨大的差距。
特斯拉13.0以后的能力还是非常强的。而且 12.5之前的话应该是这个半规则算法的能力。所以我说不是特斯拉真实能力的体现,但是我们能看到特斯拉基本功是非常扎实的。它的整个的感知的距离,它整个运行的帧率,它整个的车辆的整个的控制的稳定性。
7. 为什么(特斯拉)没有释放真实的能力?
- 我觉得如果直接上端到端的话,有中国的这些路况,其实就像我讲的,它在美国没有学习到这些东西,然后再遇到这些复杂的,还是会遇到挑战。
8. 你们现在还学特斯拉吗?最近从他身上学到了什么?
- 我觉得美国的很多的顶级的公司,像苹果,像特斯拉这种企业,就是他们基本功特别扎实。我觉得这个是我们真正要去学的,尤其是在今天这种内卷的环境下,包括外部的不确定的环境下,这时候更是每个企业扎扎实实练基本功的最好的时候。
而且到了人工智能时代的话,基本功就更是不可跳跃的。所以我觉得如果很多企业做了很多的创新,但是没有基本功,不扎实,很多创新就会昙花一现就过去了,所以这会是很大的问题。因为它虽然拥有很多钱,能发明了很多东西,就创造、创新了一些很多的功能的组合。但是你会发现能力强的公司复制的东西基本上在人工智能时代都是按周计算就能复制过来,所以那个能力的基本功还是非常重要的。
9. 为什么是学苹果呢?
- 我觉得最重要的是学能力。
我们在小的时候没有看明白,没有看懂苹果,这个阶段的时候我们可能又去认真研究苹果,发现它还有很多能力其实值得我们去学习的。
到今天为止,当你做到千亿收入,你再去看这种万亿收入公司的能力的时候,你开始模模糊糊能看懂一些了。但是我们小的时候,我们很小规模的时候,我们看不懂苹果为什么这么做。
我觉得最后其实是规模,因为规模是一个可以确定衡量的变化,也会带来用户规模和用户需求的变化,技术和产品的变化,也会带来组织和能力的变化。
10. 你有试驾过上了VLA(司机大模型)的车吗?有经历过什么aha moment(惊喜时刻)吗?
- 我觉得挺难有什么aha moment(惊喜时刻),因为你已经理解它的原理了,其实就是它就变得跟人很像了。
它变成更像人其实没什么惊奇的。相反一个动物忽然会的一些东西,你觉得挺惊讶,但一个人做好东西,你认为其实是正常的。
11. 你之前对内说过理想的智驾原创性超过了增程,这句话是不是太自信了?
- 我自己觉得我们在这方面的研究工作真的做得很深。
你看到我们的各种的论文,而且我们为了做好辅助驾驶,我们还做了操作系统。然后我们为了做辅助驾驶,我们构建了完整的训练体系,我们为了做辅助驾驶,甚至我们自己去直接去改芯片,我们做了很多这方面的工作。
那这方面工作肯定做的比增程更多,然后我觉得还有一个比较好的一个评价方式。就是我们历史上从来没有遇到过,然后任何一个周期,比如 2024年和2025今年年初,我们每一个辅助驾驶团队的核心人员可能基本上都会接到 20 个以上的猎头电话。
理想 AI Talk第二季李想说当前竞争环境下要练基本功