• 正文
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

理想汽車VLA的三個為什么?

05/12 10:30
347
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

理想成功,全靠油箱 - 這是理想汽車當前最想證明給大家-“這是錯誤的”。不得不說,理想非常精準的抓住汽車電氣化轉(zhuǎn)型時候的一個機會,找到技術(shù)跨越鴻溝的梯子 - 可油可電而且技術(shù)實現(xiàn)相對簡單的增程式,發(fā)電機發(fā)電給電池充電,汽車其他所有結(jié)構(gòu)都類似于純電汽車結(jié)構(gòu)。具體可以點擊我們之前文章《理想汽車憑什么獲得新勢力銷量第一并在港股融資》查看。

理想從當時的三個新勢力中脫穎而出,把其他兩個勢力甩的遠遠的,成為消費者和資本都追捧的寵兒。最近理想廣泛推廣的VLA也成了大家追捧的熱門詞,所以本文圍繞以下三個方面構(gòu)建內(nèi)容,幫助大家全方位理解理想的VLA。

    理想汽車為什么這個時候推出VLA?
    理想汽車VLA能夠給智能輔助駕駛帶來哪些產(chǎn)品亮點?
    理想汽車VLA到底怎么樣?

被圍獵的理想但從2022年開始,問界推出增程式并且一年后銷量直逼理想,如果說問界的銷量給理想造成巨大威脅是有華為加持的話。那么從2023年開始推出增程式的零跑,自此登上了新能源新勢力的榜單,并且在2025年初就成為繼理想汽車之后的第二家盈利的新勢力。于是,這兩年增程式一發(fā)不可收拾,不管新勢力和傳統(tǒng)勢力,不管中國品牌還是外資品牌都在這兩年會上增程式。

所以,理想汽車現(xiàn)在危機感重重,他急需尋求他的第二曲線?-- 最會讀懂趨勢的理想汽車必然找到的是AI人工智能,AI人工智能是怎么發(fā)展的?到了哪個節(jié)點?利用好它,從產(chǎn)品和營銷上狠狠的贏一把,樹立明確的有誘惑力和想象空間的產(chǎn)品標簽,讓投資者看到發(fā)展希望,讓消費者趨之若鶩。熟悉我們之前文章《2025 CES 英偉達發(fā)布洞察:Agentic AI/Physical AI 快速落地,未來已來》的讀者肯定知道Physical AI/Agentic AI就是當前AI的趨勢和方向。

于是理想找到了新的標簽 - 在智能輔助駕駛方面將兩個熱門AI詞都用上的Physical Agent,落地的技術(shù)是 VLA ,如果還不知道VLA是啥點擊《2025年,自動駕駛即將開“卷”的端到端大模型 2.0 - VLA (Vision Language Action)》。

VLA落地的產(chǎn)品特點理想將他的VLA稱為MindVLA。并表示MindVLA將為用戶帶來全新的產(chǎn)品形態(tài)和產(chǎn)品體驗,由MindVLA賦能的汽車是聽得懂、看得見、找得到的專職司機。

“聽得懂”是用戶可以通過語音指令改變車輛的路線和行為,例如用戶在陌生園區(qū)尋找超市,只需要通過理想同學(xué)對車輛說:“帶我去找超市”,車輛將在沒有導(dǎo)航信息的情況下,自主漫游找到目的地;車輛行駛過程中,用戶還可以跟理想同學(xué)說:“開太快了”“應(yīng)該走左邊這條路”等,MindVLA能夠理解并執(zhí)行這些指令。

“看得見”是指MindVLA具備強大的通識能力,不僅能夠認識星巴克、肯德基等不同的商店招牌,當用戶在陌生地點找不到車輛時,可以拍一張附近環(huán)境的照片發(fā)送給車輛,擁有MindVLA賦能的車輛能夠搜尋照片中的位置,并自動找到用戶。

“找得到”意味著車輛可以自主地在地庫、園區(qū)和公共道路上漫游,其中典型應(yīng)用場景是用戶在商場地庫找不到車位時,可以跟車輛說:“去找個車位停好”,車輛就會利用強大的空間推理能力自主尋找車位,即便遇到死胡同,車輛也會自如地倒車,重新尋找合適的車位停下,整個過程不依賴地圖或?qū)Ш叫畔?,完全依賴MindVLA的空間理解和邏輯推理能力。

總的一句話就是,和人一樣的交互,類似于一個專職司機,但理想的Physical Agent 和 VLA?到底怎么樣,必須先拆解其技術(shù)原理。VLA?技術(shù)原理具體VLA模型結(jié)構(gòu)以及細節(jié)可以查看之前文章《理想智駕的VLA模型及其結(jié)構(gòu)》,那么如何實現(xiàn)從工程上進行實現(xiàn),具體有四個步驟:

首先,理想在云端訓(xùn)練了一個基座模型,基座模型訓(xùn)練的數(shù)據(jù)包含了三個部分數(shù)據(jù),分別是vision(視覺)的數(shù)據(jù),language(語言)的數(shù)據(jù)和VL(視覺和語言)聯(lián)合的數(shù)據(jù)。這個基座模型參數(shù)量大概是32B(320億),根據(jù)李想AI Talk演講信息,這個基座模型可能采用Deepseek開源蒸餾形成,最少也是借鑒結(jié)構(gòu)方法理論,例如MoE(混合專家模型),理想表示其模型有8個專家組成的MoE模型。有了這個基座模型之后,就將其蒸餾成一個 3.6B(36億)參數(shù)量的滿足車端部署的車端小模型。

其次,后訓(xùn)練,后訓(xùn)練將蒸餾的小模型變成VLA(司機大模型)。上一步的模型算是理解環(huán)境,這一步就是將action(行動)放進來,Action就是車輛規(guī)劃控制,將他們組合成一個VLA(司機大模型)的端到端,打通從感知到規(guī)控的鏈路,確保輸入感知信息然后輸出轉(zhuǎn)向,電們,剎車等車控。最終這個車端VLA模型參數(shù)量大概是4B (40億)。

第三步是強化的訓(xùn)練,算是駕駛針對性教育這個模型,理想強化訓(xùn)練分為兩個部分:第一個部分先做RLHF(基于人類反饋的強化學(xué)習(xí)),利用理想原來積累的人類接管數(shù)據(jù)來訓(xùn)練,讓模型知道什么是好和不好。第二個部分是純粹的RL(強化學(xué)習(xí)),采用世界模型來訓(xùn)練,世界模型的概念其實就是人類世界的物理規(guī)則集合體,他可以用來教育或者叫訓(xùn)練模型,理想的世界模型包括三類規(guī)則:

    舒適性規(guī)則 - 主要通過G 值(加速度數(shù)值)來判斷它的舒適性,給舒適性的反饋。安全碰撞規(guī)則 - 讓模型知道碰撞是不允許的。交通規(guī)則 - 不能違反交通規(guī)則。

舒適、交通規(guī)則和安全碰撞就是理想世界模型的三大規(guī)則。

以上三個階段就構(gòu)成了 VLA(司機大模型)。但怎么讓人和車交互組成所謂的Physical Agent?理想表示搭建一個司機的Agent(智能體),也就是語言,圖片的交互體系。他的邏輯是一些通用的短指令,部署在車端的 VLA(司機大模型)直接就處理了。如果是一些復(fù)雜的指令,其實先要到云端的 32B 模型那里處理完以后,再下發(fā)車端VLA。其實這里,可以發(fā)現(xiàn)理想VLA可能在一些特定的指令和環(huán)境能夠做好在這個類人的交互,但是復(fù)雜場景實時性難以得到保證。

以上就是完整的理想VLA方法和結(jié)構(gòu)體系。寫在最后總結(jié)起來,和我們之前文章《自動駕駛新風(fēng)口:DeepSeek-R1 的“車端革命”》預(yù)測的一樣。Deepseek算是AI大模型Linux時刻,基于Deepseek開源應(yīng)用或者借鑒在不同行業(yè)中推廣應(yīng)用,理想走在了前列,至少“說出來的”走在前列。理想在云端構(gòu)建了一個多模態(tài)的類Deepseek大模型,然后將其蒸餾成車端小模型,采用相同Token語言鏈接車輛規(guī)控以及人類交互。

但具體好不好用,通過公開文字和信息很難識別,畢竟我們最容易獲得的信息是別人想讓你看到的。不過,理想VLA 確實從芯片底層交互的編譯進行大量的先行工作,促使VLA在雙orin以及英偉達最新的Thor上都能夠使用,同時我們之前文章《理想智駕的VLA模型及其結(jié)構(gòu)》講到在智能輔助駕駛算法領(lǐng)域創(chuàng)新性的采用3DGS、Diffusion、MoE、CoT等AI大模型領(lǐng)域技術(shù)。

未經(jīng)準許嚴禁轉(zhuǎn)載和摘錄

理想汽車

理想汽車

理想汽車致力于為家庭打造更安全、更便捷、更舒適的智能電動車,產(chǎn)品包括理想L9(全尺寸六座SUV)、理想L8(中大型六座SUV)、理想L7(中大型五座SUV)。自研增程電動系統(tǒng)、魔毯空懸、智能駕駛、智能空間。

理想汽車致力于為家庭打造更安全、更便捷、更舒適的智能電動車,產(chǎn)品包括理想L9(全尺寸六座SUV)、理想L8(中大型六座SUV)、理想L7(中大型五座SUV)。自研增程電動系統(tǒng)、魔毯空懸、智能駕駛、智能空間。收起

查看更多

相關(guān)推薦