• 正文
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

理想智駕的VLA模型及其結(jié)構(gòu)

04/25 14:33
703
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

我們之前文章《2025年,自動(dòng)駕駛即將開(kāi)“卷”的端到端大模型 2.0 - VLA (Vision Language Action)》分享過(guò)VLA,現(xiàn)在,不少公司已經(jīng)宣稱(chēng)會(huì)在2025年下半年都會(huì)推出此類(lèi)模型結(jié)構(gòu)。

理想算是比較早喊出使用VLA模型做智能駕駛的公司,VLA將感知(3D編碼器)、推理(語(yǔ)言模型)、決策(擴(kuò)散策略)整合為單一可訓(xùn)模型,也就是端到端大模型的一種。同時(shí)理想表示,他的VLA將同時(shí)支持外部多模態(tài)的交互,例如駕駛員的語(yǔ)音交互,周邊指定的視覺(jué)輸入,實(shí)現(xiàn)智駕聽(tīng)得懂,看得見(jiàn),找得到。

所以,本文將通過(guò)理想相關(guān)信息來(lái)拆解分享理想智駕VLA算法。理想VLA模型架構(gòu)的四大核心模塊:

    V-Spatial Intelligence,通過(guò)汽車(chē)傳感器輸入的信息,將感知和自車(chē)模態(tài)3D建模,形成開(kāi)車(chē)的環(huán)境和自我的理解,并將這些信息token化。L–Linguistic Intelligence,大語(yǔ)言模型,這個(gè)大語(yǔ)言模型基本上就是目前AI的token everyting,token就是AI的語(yǔ)言,其他外部輸入,例如駕駛員語(yǔ)言控制也token化,統(tǒng)一進(jìn)行類(lèi)似于語(yǔ)言的推理。A-Action Policy,產(chǎn)生動(dòng)作,類(lèi)似于人類(lèi)駕駛員,推理出當(dāng)前環(huán)境和自車(chē)情況之后,產(chǎn)出一條駕駛路徑?;跀U(kuò)散模型生成多模態(tài)駕駛軌跡,支持自車(chē)與其他交通參與者的交互博弈。

以上,三步就組成了理想VLA的模型結(jié)構(gòu),從感知到,處理,最后到生產(chǎn)運(yùn)動(dòng)軌跡。同時(shí)整合為單一可訓(xùn)模型。如何訓(xùn)練呢?

    Reinforcement Learning,是理想VLA模型訓(xùn)練的方法,模型需要喂人類(lèi)想要的數(shù)據(jù)和結(jié)論給到模型,模型以后遇到類(lèi)似的情況才能正確的相應(yīng)。

理想采用世界模型的方式,世界模型也就是英偉達(dá)常說(shuō)的“結(jié)合3D重建與生成技術(shù),構(gòu)建高保真,熟悉物理世界的虛擬環(huán)境”類(lèi)似于英偉達(dá)cosmos此類(lèi)。然后,通過(guò)人類(lèi)給定的好案例用于強(qiáng)化學(xué)習(xí)訓(xùn)練和閉環(huán)驗(yàn)證。

理想VLA模型架構(gòu)的詳細(xì)構(gòu)建:首先是類(lèi)似于攝像頭等傳感器的輸入。3D空間編碼器:攝像頭以及激光雷達(dá)信息進(jìn)行3D編碼,提煉成3D特征,形成3D空間理解;通過(guò)自監(jiān)督學(xué)習(xí)訓(xùn)練3D高斯表征,利用真實(shí)駕駛數(shù)據(jù)中的RGB圖像生成多尺度幾何和語(yǔ)義信息,無(wú)需人工標(biāo)注。此外,自車(chē)信息例如方位,導(dǎo)航信息進(jìn)行編碼。形成了3D空間理解的token。其實(shí)對(duì)于3D空間的理解,當(dāng)前主流的方向都是學(xué)習(xí)特斯拉的采用BEV Transformer以及occupancy的方式,具體可以點(diǎn)擊之前文章《智能駕駛-城市領(lǐng)航輔助必備的BEV以及Occupancy networks》。通過(guò)理想發(fā)布的信息,理想的創(chuàng)新是采用了Gaussian-Centric的方式表征多尺度3D幾何與語(yǔ)義信息。

有了這些被token化的感知信息,那么就需要推理模型。語(yǔ)言模型(MindGPT):理想表示,其LLM大語(yǔ)言模型完全從零訓(xùn)練,是理想的專(zhuān)用大語(yǔ)言模型(非開(kāi)源模型改造),融合駕駛知識(shí)、邏輯推理能力和3D空間理解。熟悉大語(yǔ)言模型的都知道,大語(yǔ)言模型參數(shù)量巨大,需要推理的算力和實(shí)時(shí)性都難以實(shí)現(xiàn)自動(dòng)駕駛,所以理想宣稱(chēng)其MindGPT通過(guò)Sparse Attention稀疏注意力機(jī)制和混合專(zhuān)家(MoE)架構(gòu)優(yōu)化推理效率,達(dá)到了10hz的輸出,也就是100ms能夠產(chǎn)生結(jié)論,而且還適應(yīng)車(chē)載芯片(如Orin X)的算力限制。Sparse Attention稀疏注意力機(jī)制和混合專(zhuān)家(MoE)都是今年爆火的Deepseek采用的方法,所以,如我之前文章《自動(dòng)駕駛新風(fēng)口:DeepSeek-R1 的“車(chē)端革命”》講到,Deepseek此類(lèi)開(kāi)源大模型通過(guò)專(zhuān)業(yè)化的數(shù)據(jù)訓(xùn)練再通過(guò)蒸餾成小模型就可以做成專(zhuān)用的小模型。此外理想還提到利用固定簡(jiǎn)短CoT模板,來(lái)平衡實(shí)時(shí)性與邏輯深度。

對(duì)于此處的大模型應(yīng)用來(lái)講,主要的邏輯就是把大模型蒸餾輕量化,專(zhuān)業(yè)化,便于車(chē)端的小算力和實(shí)時(shí)化部署。有了推理之后,就是執(zhí)行變成駕駛的運(yùn)動(dòng)軌跡實(shí)現(xiàn)控車(chē)。行為生成器(Diffusion Policy):基于擴(kuò)散模型生成多模態(tài)駕駛軌跡,預(yù)測(cè)自車(chē)與他車(chē)軌跡,支持自車(chē)與其他交通參與者的交互博弈。通過(guò)ODE采樣器加速生成過(guò)程,實(shí)現(xiàn)2-3步穩(wěn)定輸出,滿(mǎn)足實(shí)時(shí)性要求。

真實(shí)端到端的魅力,就是以上幾個(gè)部分能夠融合打通,共用一套token,進(jìn)行無(wú)損和實(shí)時(shí)的信息傳遞,如何構(gòu)建這些token的參數(shù)parameters例如權(quán)重weight就是訓(xùn)練要干的事情了。對(duì)于模型的訓(xùn)練,理想汽車(chē)的強(qiáng)化學(xué)習(xí)(RL)框架依賴(lài)于一個(gè)高度逼真的世界模型,該模型通過(guò)結(jié)合場(chǎng)景重建與生成技術(shù)構(gòu)建,解決了傳統(tǒng)RL在自動(dòng)駕駛中因環(huán)境真實(shí)性不足導(dǎo)致的訓(xùn)練偏差問(wèn)題。采用自監(jiān)督學(xué)習(xí)方法,通過(guò)多視角RGB圖像重建動(dòng)態(tài)3D場(chǎng)景,生成多尺度幾何與語(yǔ)義信息。3D高斯以點(diǎn)云形式表示場(chǎng)景,每個(gè)高斯點(diǎn)包含位置、顏色、透明度和協(xié)方差矩陣,能夠高效渲染復(fù)雜環(huán)境。

這樣VLA模型(端到端+語(yǔ)言模型)的訓(xùn)練可以基于在云端構(gòu)建虛擬3D環(huán)境,進(jìn)行數(shù)百萬(wàn)公里的駕駛模擬,替代部分實(shí)車(chē)測(cè)試。寫(xiě)在最后當(dāng)然,本文的主要信息其實(shí)算是理想汽車(chē)的公開(kāi)而且偏向技術(shù)宣傳類(lèi)的信息,至于效果怎么樣,還需要實(shí)際體驗(yàn),但本文信息還算能夠大概了解其算法結(jié)構(gòu),思路以及相關(guān)核心技術(shù)。此外,理想這套模型如果跑通,那么應(yīng)用于其他Physical AI 也是同理,例如機(jī)器人。
未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料:

    理想 2025 GTC 演講 ppt - VLA: A Leap Towards Physical AI in Autonomous Driving

加入我們的知識(shí)星球可以下載包含以上參考資料的汽車(chē)行業(yè)海量的一手資料。

理想汽車(chē)

理想汽車(chē)

理想汽車(chē)致力于為家庭打造更安全、更便捷、更舒適的智能電動(dòng)車(chē),產(chǎn)品包括理想L9(全尺寸六座SUV)、理想L8(中大型六座SUV)、理想L7(中大型五座SUV)。自研增程電動(dòng)系統(tǒng)、魔毯空懸、智能駕駛、智能空間。

理想汽車(chē)致力于為家庭打造更安全、更便捷、更舒適的智能電動(dòng)車(chē),產(chǎn)品包括理想L9(全尺寸六座SUV)、理想L8(中大型六座SUV)、理想L7(中大型五座SUV)。自研增程電動(dòng)系統(tǒng)、魔毯空懸、智能駕駛、智能空間。收起

查看更多

相關(guān)推薦