作者 | 方文三
如果過去十年機器人領(lǐng)域的焦點先后經(jīng)歷了[可見]的視覺感知、[可理解]的語言理解,那么在VLA模型出現(xiàn)之后,機器人開始進入[動作精準]的第三階段。
目前,VLA模型已逐漸成為具身智能行業(yè)的共識,被視為連接感知、語言和行為的通用架構(gòu)。
VLA模型是通往通用智能的關(guān)鍵基礎(chǔ),它使機器人能夠從互聯(lián)網(wǎng)等多源數(shù)據(jù)中學(xué)習(xí),并將這些學(xué)習(xí)轉(zhuǎn)化為具體行動。
本地VLA模型?Gemini Robotics On-Device發(fā)布
近日,谷歌發(fā)布了Gemini Robotics On-Device,這一具身智能離線模型,實現(xiàn)了視覺-語言-動作(VLA)多模態(tài)大模型在具身機器人上的本地離線運行。
能夠同步處理視覺輸入、自然語言指令以及動作輸出。即便在無網(wǎng)絡(luò)環(huán)境下,該模型也能保持穩(wěn)定運行。
這一系列復(fù)雜的處理過程,如今均能在機器人的內(nèi)部計算單元中實現(xiàn)。
特別值得注意的是該模型的適應(yīng)性和通用性。
谷歌指出,Gemini Robotics On-Device是首個向開發(fā)者開放微調(diào)功能的機器人VLA模型,開發(fā)者能夠根據(jù)自己的特定需求和應(yīng)用場景,對模型進行個性化訓(xùn)練。
研究顯示,僅需50至100個新的任務(wù)演示(通常通過遠程操作機器人完成),模型便能迅速學(xué)習(xí)并掌握新技能,展現(xiàn)出卓越的[快速任務(wù)適應(yīng)]能力。
此外,谷歌還公開了相應(yīng)的軟件開發(fā)工具包(SDK),標志著具身智能技術(shù)向?qū)嵱没~出了新的一步。
Gemini Robotics是谷歌于三月份推出的VLA系列模型之一,其核心在于將多模態(tài)大模型的能力引入現(xiàn)實世界。
而Gemini Robotics On-Device,顧名思義,是專為機器人設(shè)備本地運行而優(yōu)化的模型。旨在以最低限度的計算資源實現(xiàn)機器人的智能化。
本地模型的優(yōu)勢在于,即便在網(wǎng)絡(luò)連接不穩(wěn)定或完全無連接的情況下,也能確保具身機器人的性能穩(wěn)定。
在多種測試場景中,Gemini Robotics On-Device展現(xiàn)了強大的視覺、語義和行為泛化能力,能夠理解自然語言指令,并完成如解開袋子或折疊衣物等高度靈巧的任務(wù)。
由于該模型獨立于數(shù)據(jù)網(wǎng)絡(luò)運行,它特別適合對延遲敏感的應(yīng)用,并確保在網(wǎng)絡(luò)間歇性或零連接的環(huán)境中也能穩(wěn)定工作。
評測數(shù)據(jù)顯示,On-Device版本在泛化性能測試中表現(xiàn)突出。
盡管在視覺泛化、語義理解和行為泛化等多個維度上,與云端版本的Gemini Robotics相比略有差距,但已大幅超越了先前最佳的本地模型。
在處理分布外任務(wù)和復(fù)雜多步驟指令時,Gemini Robotics On-Device相較于先前的本地模型也展現(xiàn)出了顯著的優(yōu)勢。
Gemini Robotics On-Device的推出,象征著具身智能從依賴云端計算能力向本地自主運行的關(guān)鍵轉(zhuǎn)變。
具身智能的部署一直面臨著挑戰(zhàn)
在此之前,包括谷歌在內(nèi)的許多機器人系統(tǒng),通常采用一種混合架構(gòu):在機器人上部署一個較小的模型以處理快速響應(yīng),同時將需要復(fù)雜推理和規(guī)劃的任務(wù)交由云端強大的服務(wù)器處理。
盡管這種方法可行,但其對網(wǎng)絡(luò)連接的穩(wěn)定性和速度提出了極高的要求。
任何網(wǎng)絡(luò)延遲或中斷都可能導(dǎo)致機器人反應(yīng)遲緩甚至停擺;
同時,將傳感器數(shù)據(jù)(尤其是來自家庭或醫(yī)療等隱私敏感環(huán)境的視覺數(shù)據(jù))上傳至云端,也引發(fā)了持續(xù)的隱私和安全顧慮。
①對云計算資源的重度依賴,這限制了機器人在網(wǎng)絡(luò)不穩(wěn)定或無網(wǎng)絡(luò)環(huán)境下的獨立作業(yè)能力;
②模型體積龐大,難以在機器人有限的計算資源上高效運行。
目前大多數(shù)機器人需要經(jīng)過成千上萬次的訓(xùn)練,才能完成一個任務(wù)。
谷歌希望為機器人領(lǐng)域提供一個開放、通用且易于開發(fā)的平臺,正如安卓系統(tǒng)對智能手機行業(yè)所做的那樣。
過去受限于帶寬和計算能力,許多機器人AI僅能進行示范。
具身智能技術(shù)的發(fā)展長期受到對云計算資源高度依賴的制約,這導(dǎo)致機器人在缺乏網(wǎng)絡(luò)連接或網(wǎng)絡(luò)不穩(wěn)定的情況下難以獨立完成任務(wù)。
此外,由于模型體積龐大,它們在機器人有限的計算資源上難以實現(xiàn)高效運行。
為機器人產(chǎn)業(yè)的實際應(yīng)用開辟了新的道路,為機器人在更廣泛場景中的應(yīng)用提供了可能性。
例如,機器人在無網(wǎng)絡(luò)連接的工廠中進行精確的零件裝配、在災(zāi)區(qū)廢墟中進行自主救援等應(yīng)用場景,都依賴于機器人端側(cè)模型的部署。
目前,由于各類機器人在本體結(jié)構(gòu)、自由度以及傳感器配置上的差異,實現(xiàn)統(tǒng)一的軟件架構(gòu)頗具挑戰(zhàn)。
一旦硬件標準實現(xiàn)統(tǒng)一,類似于智能手機生態(tài)系統(tǒng)中USB接口、鍵盤、屏幕等通用組件所形成的規(guī)范,將顯著促進算法標準化和本地部署的實現(xiàn)。
具身智能正在進入“端側(cè)時代”
本地VLA模型將使機器人更適合家庭、醫(yī)療、教育等敏感場景,解決數(shù)據(jù)隱私、實時反應(yīng)、安全穩(wěn)定性等核心挑戰(zhàn)。
在過去的幾年中,大型語言模型的[端側(cè)部署]已成為一個重要趨勢。
從最初依賴大規(guī)模云端計算資源,到如今能夠在手機、平板等邊緣設(shè)備本地運行,模型的壓縮優(yōu)化、推理加速與硬件協(xié)同不斷取得進展。
同樣的演進路徑,正在具身智能領(lǐng)域逐步展開。
VLA模型(視覺-語言-動作模型)作為具身智能的核心架構(gòu),本質(zhì)上是賦予機器人從多模態(tài)信息中理解任務(wù)并作出相應(yīng)行動的能力。
此次大模型版本的發(fā)布,也可能在業(yè)界引發(fā)連鎖反應(yīng)。隨著AI算力和模型架構(gòu)的持續(xù)演進,[邊緣智能]正從傳統(tǒng)的物聯(lián)網(wǎng)走向以具身智能為代表的更高級階段。
本地化VLA的引領(lǐng),預(yù)示著具身智能發(fā)展的新階段。
這一突破性技術(shù)標志著機器人AI從依賴云端計算向自主邊緣智能的轉(zhuǎn)變,為工業(yè)制造、醫(yī)療護理、家庭服務(wù)等領(lǐng)域帶來了前所未有的可能性。
徹底擺脫對云端的依賴,機器人AI實現(xiàn)了[獨立思考]。
傳統(tǒng)機器人AI系統(tǒng)普遍依賴于云端計算資源,通過網(wǎng)絡(luò)將傳感器數(shù)據(jù)上傳至遠程服務(wù)器進行處理后再傳回指令。
盡管這種架構(gòu)的計算能力強大,但其固有的缺陷包括網(wǎng)絡(luò)延遲、連接不穩(wěn)定和隱私安全問題。
今年,諸如谷歌、微軟、Figure AI等國際企業(yè)紛紛推出了各自的VLA模型,與此同時,國內(nèi)的銀河通用、智元機器人、自變量機器人等公司也已在這一領(lǐng)域展開了相應(yīng)的戰(zhàn)略部署。
今年6月1日,銀河通用正式推出了自主研發(fā)的產(chǎn)品級端到端導(dǎo)航大模型TrackVLA。
該模型具備純視覺環(huán)境感知、語言指令驅(qū)動、自主推理能力以及零樣本泛化能力的具身大模型。
而在一周后的2025北京智源大會上,銀河通用又發(fā)布了全球首個面向零售場景的端到端VLA大模型GroceryVLA。
結(jié)尾
從全球具身智能的發(fā)展趨勢來看,Gemini Robotics On-Device的推出,代表了大模型技術(shù)在機器人領(lǐng)域的一次重大范式轉(zhuǎn)變。
過去十年,機器人智能主要依賴于云端大模型的支持,而未來將轉(zhuǎn)向邊緣本地部署、大模型小型化以及高頻自適應(yīng)更新的新階段。
這一趨勢對谷歌、特斯拉等具身智能國際巨頭至關(guān)重要,同時也對我國具身智能產(chǎn)業(yè)鏈提出了更高的要求。
部分資料參考:
新智元:《谷歌讓機器人[長腦子]了!首發(fā)離線具身VLA模型,斷網(wǎng)精準操控》,量子位:《谷歌發(fā)布本地具身智能模型!全程無聯(lián)網(wǎng)執(zhí)行精細操作,從人形機器人到工業(yè)機器人全覆蓋》,DeepTech深科技:《谷歌發(fā)布Gemini Robotics On-Device,首次實現(xiàn)機器人AI模型完全本地化運行》,藍鯨TMT:《谷歌發(fā)布本地VLA模型,機器人界的[安卓系統(tǒng)]要來了?》,頭部科技:《機器人[本地最強大腦]誕生,谷歌DeepMind推出新一代VLA模型,國內(nèi)研究多維進擊》,智維洞察:《谷歌發(fā)布Gemini本地模型,具身智能再提速》,機器覺醒時代: 《谷歌RT-1模型—— 具身智能VLA模型在早期的重要探索》