
从年初开始,本土车企便开始宣传VLA,至今已经过去了半年多的时间,头部企业的VLA依然犹抱琵琶半遮面,迟迟不跟大家见面。
为何?许是因为VLA有三大难以克服的缺陷。
01
话说三遍淡如水。
整个2024年,本土车圈开口端到端,闭口端到端,把本土自动驾驶行业来了个一锅端的“端到端”顺势成为当年最大的营销热点。
进入2025年,端到端一词越发寡淡,越来越难以助力车企的营销宣传。
与此同时,资本疯狂投入、热潮涌动的本土具身机器人领域,在世界模型和VLA模型之间选择了算力消耗相对较小的VLA模型架构。
一向标榜跟人形机器人技术同根同源的自动驾驶行业自然而然地过渡到了VLA这条技术路线,就像24年的端到端那样,VLA迅速成为25年本土车圈新的营销热词。
展开剩余87%欲戴王冠,必承其重。
从视频V入-轨迹A出的端到端方案进化到引入了大语言模型的VLA,在得益于语言智能带来的复杂场景理解能力的同时,也必然要承受语言智能最重大的缺陷-幻觉问题。
从本质上看,大语言模型是一种描述自然语言的概率模型,在大量数据的训练下,给定自然语言数据X,最大化P(X)的概率,实现“熟读唐诗三百首,不会作诗也会吟”的效果。
但是,既然是基于训练数据的概率分布进行下一个Token预测,预测下一个Token时就有出错的可能,幻觉问题在“预测下一个Token”的机制下难以得到根除。
除了基于概率进行预测这个根本的原因,训练数据中的噪声、污染、数据覆盖的不足、上下文窗口的限制、在推理过程中缺乏验证机制、重在强化语言流畅度而非内容真实性的目标函数错位等,都会在一定程度上加剧幻觉的出现。
对那些使用大语言模型进行代码生成、图片生成、文本生成的用户而言,大可以对大模型似是而非的输出莞尔一笑,但人命关天的自动驾驶场景岂能这样胡闹?
02
在人工智能领域,根据具体场景和技术层级的不同,“对齐”一词有着不同的含义。
在最主流的定义中,对齐指的是给神通广大堪比孙悟空的AI系统带上紧箍咒,确保AI系统的目标、行为和输出符合人类的意图、伦理与社会规范。
在多模态场景中,对齐是指让图像、文字、视频、控制指令、动作轨迹等不同模态的数据映射到具备统一表征的语义空间内。
具体到VLA模型中,模态对齐将视觉感知、语言指令与动作执行映射到同一语义空间,使模型能够根据环境输入和语言指令生成精确的动作。
结合VLA模型架构,模态对齐主要涉及视频+文本编码器-语言模型的输入和语言模型-轨迹+文本解码器的输出两个层面。
输入层面,通过BEV特征提取、OCC特征提取将文本语言描述的目标绑定到空间中的具体实例。
再通过视觉查询模块和分层投影机制,将目标实例进一步绑定到三维坐标系。
最终形成语言描述-空间实例-三维坐标的绑定关系,将视觉特征与语言描述在向量空间中对齐,确保模型能够理解视觉内容与语义的关联关系。
在之前的端到端+VLM双系统方案中,理想、小米们使用AI巨头通过互联网海量图文对预训练出来的VLM做基座模型,再利用驾驶场景数据对基座模型进行后训练。
图-文之间的匹配操作主要停留在2D图像空间,并没有实现语言描述目标和3D空间坐标系内具体实例的绑定匹配。
所以,到了VLA阶段,从业者们需要再接再厉,解决3D视觉、文本模态的对齐。
输出层面,需要将语言模型的推理结果解码为数值化的轨迹,弥合语言空间和动作空间之间的巨大鸿沟。
如何将语言空间内的场景理解与规划转化成符合车辆动力学和物理规律的动作序列,也是一个大难题!
03
500年前,虽未被压在五行山下却也在龙场困坐愁城的阳明先生经历了和现代人一样的困惑:“懂得这么多道理,为什么我还是过不好这一生?”
悟道之后,阳明先生深刻地洞察到,知和行之间有着十万八千里的距离,于是反复强调知行合一。
在现代科技领域,“知”指的是算法能力,通过算法的研发实现认知的突破,“行”讲的是工程能力,以工程化的量产完成从技术理论到产品交付的闭环。
VLA已经完成了从0到1的理论创新,各大巨头开源的VL基础模型也验证了路径的可行性,留给各个车企或智驾方案供应商的任务实际上是从实验室跨越到大规模量产。
或者说,各路自动驾驶玩家在VLA上的创新主要体现在如何做优化、适配、迭代的工程能力上面。
VLA的工程落地也的确正面临多重系统性挑战,除了要靠安全网络给幻觉兜底,准备海量的模态对齐标注数据,还要克服算力上的挑战。
VLA对算力的需求大大超过了之前的端到端和VLM。
从能力上看,端到端能看、会做,VLM能看、会说,VLA能看、会说还能做,实现了真正的“知行合一”。
更高的能力自然需要更高的算力。
据悉,理想汽车去年部署在英伟达Orin X上的VLM参数规模达22亿,通过后训练量化技术GPTQ、投机采样、ViT、算子融合和流式视频编码器等技术,将运行频率提高为3Hz。
到了今年的Thor-U上,理想汽车通过混合精度量化(INT8/FP8)和自研MoE架构在40亿参数的VLA上实现了10Hz的推理帧率。
有专家指出,70-100亿参数的VLA才能具备较强的场景理解和规划能力,理想VLA的40亿参数规模低了点。
不仅如此,推理频率最好能做到20Hz,根据目前已知的消息,理想计划通过INT4/FP4的极限量化提升推理频率,工程难度可想而知。
3D视觉与语言语义之间的断层、语言世界和动作世界之间的鸿沟、幻觉的幽灵和算力的囚笼。
尽管VLA有如此之多的缺陷,小鹏、理想、元戎启行们依然选择了果断亮剑,为他们这种初生牛犊不怕虎的精神点赞!
发布于:山东省鸿越资本提示:文章来自网络,不代表本站观点。