作者|白雪
2024 年最重要的技術(shù)趨勢,非端到端自動駕駛莫屬。這還要從特斯拉端到端上車說起。今年 1 月,特斯拉向美國用戶推送了 FSD V12 測試版本。在這一版本中,F(xiàn)SD V12 將城市街道駕駛的軟件棧升級為端到端神經(jīng)網(wǎng)絡。
特斯拉 FSD V12.2.1 版本今年 2 月 19 號向 1.5 萬名員工推送,還新增了 0.5%—2% 的用戶推送量,估算下來約 1 萬人可以體驗到這一版本。預計在今年上半年,V12 版本將完成向美國全量 FSD 用戶推送。這引發(fā)了大量真實車主測評,F(xiàn)SD V12 面對各類復雜場景都展現(xiàn)出了更加接近人的駕駛邏輯。
FSD V12 上線,也引起了行業(yè)的思考:端到端會不會成為高階智駕的未來?
「只有端到端才能做到真正駕駛行為上的 Human like,理解那些無法窮盡的 Corner cases?!惯@一聲音也越來越成為一種共識。換句話說,無論是實際路測還是底層技術(shù)架構(gòu),端到端才是自動駕駛的最終解。
01、端到端模型,為何讓人著迷?
基于傳統(tǒng)自動駕駛算法,智能汽車在走向高階智駕的過程中,出現(xiàn)了三大挑戰(zhàn):開城瓶頸、體驗瓶頸、成本瓶頸。
車企大規(guī)模開城是以人工規(guī)則為核心的高精地圖打底,這意味著高精地圖的鮮度必須以天為單位。一旦遇到維修施工就需要人工接管,這為車企實現(xiàn) 100% 開城帶來了挑戰(zhàn)。體驗瓶頸表現(xiàn)得更明顯,在許多車企推送城市 NOA 后,不少用戶發(fā)現(xiàn)會遇到系統(tǒng)還無法處理的 Corner cases,同時還會存在智駕不靈活的頓挫感。而對高精地圖、更大算力芯片的需求,也在加重車企成本壓力,動輒 4 顆 Orin-X、12 顆傳感器使得硬件內(nèi)卷變得更瘋狂。
傳統(tǒng)模塊化自動駕駛向左,端到端自動駕駛向右。端到端之所以吸引眾多企業(yè)入局,在于它是比傳統(tǒng)模塊化系統(tǒng)更好用的技術(shù)指南。需要指出,端到端模型與大模型有著本質(zhì)區(qū)別。大模型,是指數(shù)據(jù)容量大小。大模型是把雙刃劍,傳統(tǒng)模塊化系統(tǒng)導入大模型,巨量數(shù)據(jù)會導致規(guī)則越變越多,進而影響智駕體驗。端到端,指的是自動駕駛可達到一端輸入感知數(shù)據(jù)、一端輸出決策的效果。端到端利用大模型巨量數(shù)據(jù),反而會培育出更加聰明的神經(jīng)網(wǎng)絡。
大模型時代下,端到端才是與之更加匹配的解題思路。
究其根本——端到端與傳統(tǒng)模塊化方案在開發(fā)訓練、規(guī)則設(shè)定、模型部署上有本質(zhì)區(qū)別。在開發(fā)訓練上,傳統(tǒng)自動駕駛是感知、預測、規(guī)劃三個模塊獨立開發(fā)訓練。模塊之間的通信協(xié)議是工程師憑個人經(jīng)驗抽象出來的結(jié)構(gòu)化數(shù)據(jù)。在這種分裂的模塊化架構(gòu)下,信息傳遞會出現(xiàn)減損。
端到端是則是將感知、規(guī)劃、決策、控制融合為一個神經(jīng)網(wǎng)絡架構(gòu)。在規(guī)則設(shè)定上,傳統(tǒng)自動駕駛使用的是人為定義規(guī)則,僅能通過有限的規(guī)則處理有限場景。端到端利用神經(jīng)網(wǎng)絡,無需定義規(guī)則,同步也降低了人工代碼的數(shù)量。馬斯克就透露,特斯拉 FSD V12 通過神經(jīng)網(wǎng)絡,人工編程的 C++控制代碼由 30 萬行縮減到了 3000 行。
類似地,元戎啟行做過統(tǒng)計,如果手動處理 case,一位工程師一天只能處理 10 多個,但端到端模型可以用 AI 的方式去解決問題,系統(tǒng)性學習老司機。在模型部署上,傳統(tǒng)自動駕駛需要多任務、多模型部署,相應地,算力和功耗的負擔就越重。端到端,破解了算力的無限游戲。在元戎啟行 CEO 周光看來,現(xiàn)階段,與基于人工規(guī)則驅(qū)動的傳統(tǒng)方案相比,端到端反而會減少對車端算力的需求。由于可以使用同一個模型完成目標檢測跟蹤與軌跡預測,這種將感知和預測模塊綁定在一起的方案,減少算力消耗的同時,還能提升目標軌跡預測精度。
元戎啟行基于一顆英偉達 Orin-X 芯片做過測試,同樣的芯片端到端上車在城市道路的流暢感明顯優(yōu)于傳統(tǒng)的模塊化自動駕駛。但未來如果想要繼續(xù)優(yōu)化達到更高程度的類人自動駕駛,仍需提升對算力的需求。據(jù)悉,在英偉達主辦的 GTC 大會上,元戎啟行和英偉達達成合作,將于 2025 年使用英偉達的 DRIVE Thor 芯片適配端到端智能駕駛模型。
而這些端到端「反常識」的優(yōu)點,就是在為車企降本增效?,F(xiàn)階段減輕對車端算力的需求,只是其中一點。除此之外,端到端并不需要高精度地圖。
本質(zhì)上,高精地圖就是巨大的規(guī)則體系,通過人工標注好道路結(jié)構(gòu)和場景信息,把底層信息提前交給系統(tǒng)來識別道路。端到端,不需要這樣的巨量、精密的基于規(guī)則的信息,在為自動駕駛「減負」的同時,還能提升系統(tǒng)的性能與體驗。從底層技術(shù)架構(gòu)的角度看,端到端已經(jīng)展現(xiàn)出效率提升、性能上限更高、泛化能力和拓展能力更強的優(yōu)勢。馬斯克就曾透露特斯拉 FSD V12 的運行功耗只有 100 多瓦,這相當于行駛 100 公里耗電只在 0.1 度左右,而且 V12 的計算性能還在提升,能夠以 50 幀/秒的計算效率高效運行。端到端的出現(xiàn),為智駕上車、提升消費者體驗,帶來了「雙贏」的可能性。
02、端到端打響軍備賽,先有技術(shù)嗅覺才有技術(shù)選擇
一場圍繞端到端模型的軍備賽,已經(jīng)展開。布局端到端自動駕駛有兩大門派,學術(shù)派與一線技術(shù)派,二者互為養(yǎng)分。
全球計算機視覺盛會 CVPR 2023 的最佳論文《Planning-oriented Autonomous Driving》提出了端到端的感知決策一體化框架,而這篇論文由上海人工智能實驗室、武漢大學、商湯科技合作完成,是學界和業(yè)界合作的典型成果。學界給行業(yè)注入技術(shù)靈感,而真正開啟端到端時代的是車企和自動駕駛公司。
特斯拉是全球第一個將深度學習模型 Transformer 應用于自動駕駛中的車企。由特斯拉引發(fā)的「技術(shù)地震」,也讓國內(nèi)許多車企也開始探索端到端。最激進的是新勢力。去年 12 月底,理想 AD MAX3.0 系統(tǒng)在端到端架構(gòu)下,整合了 BEV 模型、MPC 模型預測控制以及時空聯(lián)合規(guī)劃等能力。蔚來將在今年上半年上線「基于端到端」的主動安全功能。接近蔚來內(nèi)部的人士透露,半年前蔚來就為端到端的研發(fā)投入了幾十人規(guī)模的團隊。小鵬的下一步也是實現(xiàn)端到端模型全面上車??梢钥吹?,新勢力都在爭分奪秒爭搶量產(chǎn)端到端自動駕駛的桂冠。
但現(xiàn)在看來,比新勢力更有可能先得到桂冠的是自動駕駛企業(yè)。新勢力主要在去年下半年開始投入研發(fā),但目前還沒有更具體的計劃表。據(jù)汽車之心觀察,早在一年多前,元戎啟行就已經(jīng)將技術(shù)重點轉(zhuǎn)向端到端。2023 年年初,元戎啟行就向英偉達高層交流、展示了端到端技術(shù),這個時間遠早于馬斯克公開宣布采用端到端模型。
2023 年 8 月,元戎啟行的端到端模型上車,進行了路測。最為關(guān)鍵的是,在商業(yè)化量產(chǎn)階段元戎也持續(xù)保持了研發(fā)時的快節(jié)奏。
周光透露,搭載端到端模型的車型,將在今年面向市場量產(chǎn)。不出意外,元戎將是繼特斯拉之后,國內(nèi)最早量產(chǎn)端到端自動駕駛公司之一。在周光看來,能在時間上搶占部署端到端模型,是因為技術(shù)嗅覺總是先于技術(shù)選擇。
縱觀科技史上偉大的技術(shù)變革,其實都是先有技術(shù)嗅覺再有技術(shù)選擇。明星公司 Open AI,就是依靠技術(shù)敏感度得以引領(lǐng)行業(yè)。2020 年,Open AI 發(fā)表了一篇論文《Sacling Laws for Neural Language Models》,驗證了模擬神經(jīng)語言模型的模型性能與模型數(shù)據(jù)、數(shù)據(jù)集大小以及訓練數(shù)據(jù)量的關(guān)系。
這個函數(shù)關(guān)系被稱為比例定律(Sacling Laws),它驗證了隨著模型大小、數(shù)據(jù)集大小和浮點數(shù)計算量的增加,模型的性能會可預測地提高。涌現(xiàn)能力就是 Sacling Laws 中的特殊節(jié)點,一旦達到某個臨界點時,性能就會出現(xiàn)急劇提升。
Sacling Laws 幫助科學家在數(shù)據(jù)資源有限的情況下作出合理的模型選擇。而涌現(xiàn)能力告訴我們,類人的人工智能可以在越過閾值后實現(xiàn)。選擇端到端,就是選擇把大語言模型驗證過的涌現(xiàn)能力,最大化結(jié)合 Sacling Laws 重新在自動駕駛領(lǐng)域做一遍。現(xiàn)在,元戎啟行就是希望找到智能駕駛的 Sacling laws——在小模型、小數(shù)據(jù)驗證下確認「公式」,以最低的實驗成本設(shè)計出更大的訓練模型。
對此,元戎建立了一套循序漸進的端到端「兩部曲」:
第一步:打造端到端模型。將后融合感知技術(shù),變成多傳感器前融合感知。同時,將過去由規(guī)則驅(qū)動的預測和規(guī)劃,變成數(shù)據(jù)驅(qū)動。對應的是 2019 年,元戎發(fā)布多傳感器融合感知算法、2023 年 3 月元戎發(fā)布了不搭載高精地圖的智能駕駛解決方案 DeepRoute-Driver 3.0。
第二步:端到端模型上車。對應的是 2023 年 8 月,元戎成功完成端到端上車路測,并將端到端模型應用到量產(chǎn)車上。2024 年下半年,伴隨著量產(chǎn)車下線,將端到端模型推入消費者市場。
元戎之所以能在國內(nèi)率先建立起端到端方法論,在于掌舵人對技術(shù)風向的洞察。周光本科畢業(yè)于清華大學基礎(chǔ)科學班,博士畢業(yè)于德克薩斯大學達拉斯分校人工智能和機器人方向,扎實的數(shù)學與物理學基礎(chǔ)理論與人工智能實踐學習,使其更敏感地察覺到了端到端技術(shù)趨勢。早在兩年前,他就表示機器學習很多邏輯與數(shù)學密不可分,本質(zhì)上就是通過數(shù)據(jù)的方式去尋找規(guī)律。這也使得元戎更早看清,智駕駛向深水區(qū),更需要借助端到端這股東風。
03、逃不開誤解的端到端,卻是高階智駕的最終解
目前,高階智駕正在以超乎想象的速度推進。極氪智能科技副總裁陳奇曾提到:2023 年 12 月,國內(nèi)頭部廠商高階智駕選裝率達到了 48.73%,這相當于頭部車企每賣出兩臺智能車,其中一臺都具備城市 NOA。
再過一個季度,頭部車企們將會城市 NOA 進行全量推送,這將會是一場史上規(guī)模最大、難度最高的智駕檢驗:多數(shù)消費者與機器共駕的默契還有待提升,同時也要求車企能夠用高階智駕在復雜的城市道路中為用戶安全兜底。
現(xiàn)階段,從國內(nèi)目前多家車企的城市 NOA 體驗來看,多數(shù)遇到施工或道路有所更新的路段,幾乎都需要接管。這也意味著,目前用戶尚未享受到高階智能駕駛尚未達到用戶眼中的「可用」「好用」。
一個完善的端到端模型,將會在消費端為用戶智駕體驗帶來質(zhì)的改變。這里存在兩個有些「反常識」的知識點。一方面,過去以深度學習為基本盤的端到端模型,被外界詬病「就像一個黑箱系統(tǒng),性能很好,但缺乏解釋性?!沟?strong>這種「不可解釋性」,并不代表不安全。
這就像人類面對復雜場景時產(chǎn)生的大多數(shù)駕駛行為也存在不可解釋性。元戎啟行在最開始端到端模型上車時,會采用基于規(guī)則的安全兜底策略保證駕駛安全。比如系統(tǒng)如果檢測將要發(fā)生碰撞,將會盡早進入保守策略,啟動安全模式,避免端到端模型出現(xiàn)安全事故。
另一方面,端到端模型即使是底層技術(shù)架構(gòu),其實在消費端也是可以被察覺的。這種「可察覺」,是把「數(shù)碼味」變成真正人類司機駕駛。
今天,已經(jīng)量產(chǎn)的傳統(tǒng)方案,在直行、加塞、變道時會有明顯的頓挫感,感覺還有不同的系統(tǒng)切換。但端到端模型上車的體驗,會更擬人化。底層原因是,如果單純基于人工規(guī)則,包括道路施工、壓實線、應對違停車輛等等在內(nèi)的每種場景都需要單獨的規(guī)則,這樣的系統(tǒng)并不好用。
現(xiàn)在,端到端大模型的魔盒已經(jīng)打開:馬斯克直播路測特斯拉 V12 版本 45 分鐘內(nèi)僅接管一次、蔚小理陸續(xù)宣布投入端到端研發(fā)......甚至還有一個小細節(jié),最初特斯拉采用純視覺端到端被外界認為不可靠、不安全,但當今年 1 月特斯拉舉辦 2023 年財報會時,馬斯克被問到特斯拉是否會在今年舉辦 AI Day 活動。
馬斯克對此表示,今后謹慎透露技術(shù),因為競爭對手已經(jīng)開始模仿創(chuàng)新。一個行業(yè)走向爆發(fā)前夕,往往會信息封鎖,迎來最為緊張的時刻。進入 2024 年,周光認為,「端到端是打開物理世界通用人工智能大門的一把鑰匙。」
本質(zhì)上,Chat GPT、Sora、Midjourney,仍然屬于互聯(lián)網(wǎng)世界的生成式人工智能,所收集、生成的數(shù)據(jù)都是網(wǎng)絡虛擬數(shù)據(jù)。這就意味著,仍沒有針對物理世界的通用人工智能。要讓人工智能具備物理常識,就需要大量物理世界的真實數(shù)據(jù)。在這種情況下,智能駕駛就是最佳解。
正如地平線 CEO 余凱所言,「手機是擊穿物聯(lián)網(wǎng)的關(guān)鍵,智能駕駛是擊穿物理世界通用人工智能的關(guān)鍵?!惯@也讓自動駕駛趨勢愈發(fā)清晰:以模塊化為主導的原始人工智能時代終結(jié)了,物理世界通用人工智能時代正拉開帷幕。