国产h视频免费观看,性色av无码

我們之前文章《2025年，自動駕駛即將開“卷”的端到端大模型 2.0 - VLA (Vision Language Action)》分享過VLA，現(xiàn)在，不少公司已經(jīng)宣稱會在2025年下半年都會推出此類模型結(jié)構(gòu)。

理想算是比較早喊出使用VLA模型做智能駕駛的公司，VLA將感知（3D編碼器）、推理（語言模型）、決策（擴散策略）整合為單一可訓模型，也就是端到端大模型的一種。同時理想表示，他的VLA將同時支持外部多模態(tài)的交互，例如駕駛員的語音交互，周邊指定的視覺輸入，實現(xiàn)智駕聽得懂，看得見，找得到。

所以，本文將通過理想相關信息來拆解分享理想智駕VLA算法。理想VLA模型架構(gòu)的四大核心模塊：

汽車傳感器

以上，三步就組成了理想VLA的模型結(jié)構(gòu)，從感知到，處理，最后到生產(chǎn)運動軌跡。同時整合為單一可訓模型。如何訓練呢？

Reinforcement Learning，是理想VLA模型訓練的方法，模型需要喂人類想要的數(shù)據(jù)和結(jié)論給到模型，模型以后遇到類似的情況才能正確的相應。

理想采用世界模型的方式，世界模型也就是英偉達常說的“結(jié)合3D重建與生成技術(shù)，構(gòu)建高保真，熟悉物理世界的虛擬環(huán)境”類似于英偉達cosmos此類。然后，通過人類給定的好案例用于強化學習訓練和閉環(huán)驗證。

理想VLA模型架構(gòu)的詳細構(gòu)建：首先是類似于攝像頭等傳感器的輸入。3D空間編碼器：攝像頭以及激光雷達信息進行3D編碼，提煉成3D特征，形成3D空間理解；通過自監(jiān)督學習訓練3D高斯表征，利用真實駕駛數(shù)據(jù)中的RGB圖像生成多尺度幾何和語義信息，無需人工標注。此外，自車信息例如方位，導航信息進行編碼。形成了3D空間理解的token。其實對于3D空間的理解，當前主流的方向都是學習特斯拉的采用BEV Transformer以及occupancy的方式，具體可以點擊之前文章《智能駕駛-城市領航輔助必備的BEV以及Occupancy networks》。通過理想發(fā)布的信息，理想的創(chuàng)新是采用了Gaussian-Centric的方式表征多尺度3D幾何與語義信息。

有了這些被token化的感知信息，那么就需要推理模型。語言模型（MindGPT）：理想表示，其LLM大語言模型完全從零訓練，是理想的專用大語言模型（非開源模型改造），融合駕駛知識、邏輯推理能力和3D空間理解。熟悉大語言模型的都知道，大語言模型參數(shù)量巨大，需要推理的算力和實時性都難以實現(xiàn)自動駕駛，所以理想宣稱其MindGPT通過Sparse Attention稀疏注意力機制和混合專家（MoE）架構(gòu)優(yōu)化推理效率，達到了10hz的輸出，也就是100ms能夠產(chǎn)生結(jié)論，而且還適應車載芯片（如Orin X）的算力限制。Sparse Attention稀疏注意力機制和混合專家（MoE）都是今年爆火的Deepseek采用的方法，所以，如我之前文章《自動駕駛新風口：DeepSeek-R1 的“車端革命”》講到，Deepseek此類開源大模型通過專業(yè)化的數(shù)據(jù)訓練再通過蒸餾成小模型就可以做成專用的小模型。此外理想還提到利用固定簡短CoT模板，來平衡實時性與邏輯深度。

對于此處的大模型應用來講，主要的邏輯就是把大模型蒸餾輕量化，專業(yè)化，便于車端的小算力和實時化部署。有了推理之后，就是執(zhí)行變成駕駛的運動軌跡實現(xiàn)控車。行為生成器（Diffusion Policy）：基于擴散模型生成多模態(tài)駕駛軌跡，預測自車與他車軌跡，支持自車與其他交通參與者的交互博弈。通過ODE采樣器加速生成過程，實現(xiàn)2-3步穩(wěn)定輸出，滿足實時性要求。

真實端到端的魅力，就是以上幾個部分能夠融合打通，共用一套token，進行無損和實時的信息傳遞，如何構(gòu)建這些token的參數(shù)parameters例如權(quán)重weight就是訓練要干的事情了。對于模型的訓練，理想汽車的強化學習（RL）框架依賴于一個高度逼真的世界模型，該模型通過結(jié)合場景重建與生成技術(shù)構(gòu)建，解決了傳統(tǒng)RL在自動駕駛中因環(huán)境真實性不足導致的訓練偏差問題。采用自監(jiān)督學習方法，通過多視角RGB圖像重建動態(tài)3D場景，生成多尺度幾何與語義信息。3D高斯以點云形式表示場景，每個高斯點包含位置、顏色、透明度和協(xié)方差矩陣，能夠高效渲染復雜環(huán)境。

這樣VLA模型（端到端+語言模型）的訓練可以基于在云端構(gòu)建虛擬3D環(huán)境，進行數(shù)百萬公里的駕駛模擬，替代部分實車測試。寫在最后當然，本文的主要信息其實算是理想汽車的公開而且偏向技術(shù)宣傳類的信息，至于效果怎么樣，還需要實際體驗，但本文信息還算能夠大概了解其算法結(jié)構(gòu)，思路以及相關核心技術(shù)。此外，理想這套模型如果跑通，那么應用于其他Physical AI 也是同理，例如機器人。
未經(jīng)準許嚴禁轉(zhuǎn)載和摘錄-參考資料：

理想 2025 GTC 演講 ppt - VLA: A Leap Towards Physical AI in Autonomous Driving

加入我們的知識星球可以下載包含以上參考資料的汽車行業(yè)海量的一手資料。