• 正文
  • 推薦器件
  • 相關推薦
申請入駐 產(chǎn)業(yè)圖譜

車載AI Agent產(chǎn)品開發(fā):如何通過大模型實現(xiàn)“座艙代言人”?

2024/08/29
2899
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

佐思汽研發(fā)布《2024年車載AI Agent產(chǎn)品開發(fā)與商業(yè)化研究報告》。

根據(jù)OPEN AI對AI的分類方式(共5個級別),AI Agent位于AI發(fā)展路徑的第3個級別:

OPEN AI對AI的分類方式

來源:OPEN AI

而2023年大熱的大模型受限于交互方式與工具使用能力等,最多也只能達到L2推理者的級別。對比下來,通過構建車載Agent來發(fā)展汽車AI體系是一個較為合適的目標:Agent通過主動智能特性與多類工具/大模型調(diào)用,補全大模型在場景應用中的痛點,進一步提升座艙智能化水平。

Agent是情感座艙代言人

“情感座艙”的口號已經(jīng)喊了很多年,但是真正實現(xiàn)還是從大模型上車開始,在觸發(fā)特定條件下,語音助手通過預置的情感語料庫與用戶聊天,但在真實聊天場景下無法適應人類的對話邏輯;而車載Agent上車后,通過集成多個大模型底座,對環(huán)境的識別更為準確,更多數(shù)量的工具庫接口則進一步加強了其泛化能力,能夠應付多元化場景下的聊天問答,真正實現(xiàn)“座艙代言人”的溫暖陪伴。

部分Agent在不同場景下的情感關懷示例

整理:佐思汽研

主流的情感交互場景的設計重點在情緒識別、用戶記憶、行為編排等領域,部分主機廠、Tier1也推出了提升Agent情感價值的技術或產(chǎn)品:

部分主機廠、Tier1的Agent情感技術/產(chǎn)品

整理:佐思汽研

以小愛同學為例,其“情感對話系統(tǒng)”的構建包含三個步驟:

小愛同學“情感對話系統(tǒng)”構建步驟

整理:佐思汽研

混合策略疏導模型包含情感狀態(tài)增強編碼器、混合策略學習模塊、多因素感知解碼器三個重要組件

馬耳他大學數(shù)字游戲研究所提出了情感框架(Affectively Framework),設立情感模型,在訓練過程中采用行為獎勵和情感獎勵機制,幫助 Agent 更好地理解人類的情感,并能夠與人類進行更自然的交互。

升用戶體驗需要解決的痛點

想象一下,智能座艙不僅能夠聽懂并執(zhí)行車主下達的指令,還能預測車主的需求,就像一個貼心的私人助理,這是不是會讓車主更加期待?相比于買了傳統(tǒng)汽車后每個功能還要自己摸索一遍,誰不想要一個“動動嘴”就能幫你打理所有座艙功能的座艙“代言人”呢?Agent主打一個省時省事。

雖然現(xiàn)階段已上車的Agent大部分還停留在助手、陪伴以及具體場景功能列舉層面,但相比于大模型,Agent擁有更大潛力,具備可激發(fā)的自主性和突出的工具使用能力,更加貼合“主動智能”標簽,甚至能夠彌補大模型在實際應用中的限制。

大模型與Agent的部分區(qū)別

整理:佐思汽研

然而,要讓車載Agent真正做到“主動智能”,滿足用戶的體驗價值,在技術開發(fā)上還有很長的路要走。Agent需要在主動感知、數(shù)據(jù)處理、狀態(tài)識別等環(huán)節(jié)做得更加精確,通過準確理解環(huán)境,判斷車內(nèi)人員的真實需求,再根據(jù)不同環(huán)境采取不同的策略。其中,難點之一在于Agent對用戶需求的準確判斷,相比正常情況下的被動交互,主動意圖識別缺少語音指令,而在環(huán)境/人員/車輛狀態(tài)識別的過程中,未必能夠通過向量特征匹配得到與當前場景極為相近的描述,預置方案也未必符合車內(nèi)人員真正的意圖。

主動推薦動作的生成示意圖

來源:佐思汽研

目前,多數(shù)推薦功能僅僅是執(zhí)行預設的指令,反而限制了Agent的“主動智能”能力,導致在推理環(huán)節(jié)頻繁出現(xiàn)痛點。例如,如果Agent不能準確理解當前的場景,它就可能做出不符合用戶預期的推薦,比如在錯誤的時間推薦音樂或?qū)Ш降?。最終結果就是影響用戶體驗,導致Agent成為用戶眼中的“猜測機器”。

此外,Agent在接受語音指令的感知環(huán)節(jié)同樣也有痛點,如佐思汽研非完全統(tǒng)計了部分車主對于使用車載Agent的使用痛點案例,頻率較高的痛點主要為喚醒失敗、識別錯誤、誤喚醒。

不完全統(tǒng)計下的車載Agent使用痛點分析

整理:佐思汽研

在120個痛點案例中,喚醒失敗、識別錯誤、誤喚醒的提及頻率分別達到19、18、17個,占比分別為16%、15%、14%,其他痛點還包括不支持可見可說、不識別方言、延遲響應、不支持語義澄清、不支持連續(xù)指令等,共計89個語音環(huán)節(jié)的痛點,占本次統(tǒng)計調(diào)研的74.2%。

此外,Agent架構/場景設計不合理導致的一系列問題還包括場景觸發(fā)條件不合理、大模型需要二次喚醒、長/短期記憶失效、根據(jù)車主習慣自主做出的推薦動作不符合預期等,分別體現(xiàn)了Agent在場景設置、架構部署、記憶模塊、反思模塊上的限制。

總結說來,用戶痛點較多地集中在感知與推理環(huán)節(jié):

    • 感知:“叫不醒”(喚醒失?。?、“瞎回答”(誤喚醒)、“聽不懂”(識別錯誤)、“啥也不會”(不支持可見可說)、“耳背”(延遲響應)等;

推理:“睜眼瞎”(物體識別錯誤)、“亂推薦”(自主推薦不符合用戶預期)等。

快速響應的多Agent框架

為實現(xiàn)“代言人”在座艙的全面功能,Agent在多元化場景下的服務框架設計極為重要。Agent框架構建方式較為靈活,可以采用最簡單的“接收器+執(zhí)行器”架構,也可以構建更加復雜的多智能體架構,其設計原則很簡單:只要在特定場景下能解決用戶問題,那就是好的框架設計。作為一個合格的“座艙代言人”,車載Agent除了需要像一個獨立思考的個體,自己做決定、解決問題外,還要像人一樣,快速、自如地采取人類的行為模式。

蔚來汽車的Nomi就是一個典型的例子。它采用了多智能體架構,在不同的場景下,調(diào)用不同的工具,通過多個分工不同的Agent履行特定職責,共同完成理解需求、決策裁決、執(zhí)行任務、反思迭代的流程。多智能體架構讓Nomi不僅能夠快速響應,還能像人一樣做出更自然的反應,與汽車的其他功能無縫融合,讓體驗更加流暢。

相比單Agent系統(tǒng),多Agent系統(tǒng)更適合執(zhí)行復雜的指令,就像一個小型社區(qū),每個“Agent”都有自己的任務,但它們又能協(xié)作完成更復雜的工作。比如,一個Agent負責理解你的指令,另一個負責決策,還有專門的Agent來執(zhí)行任務。這種設計讓車載AI Agent系統(tǒng)更加靈活,能夠處理更多樣化的任務。如澳大利亞聯(lián)邦科學與工業(yè)研究組織(CSIRO)提出一種同時采用協(xié)調(diào)Agent和執(zhí)行Agent的多Agent系統(tǒng):

整個Agent框架分為6個模塊,分別為感知交互(Understanding&Interaction)、推理(Reasoning)、工具使用(Tool Use)、多Agent協(xié)作(Multi-Agent Collaboration)、反思(Reflection)以及價值對齊(Alignment),囊括了主流的Agent設計模式,包含從主動感知、推理決策、工具調(diào)用到生成執(zhí)行、反思迭代并與人類價值對齊的整個流程。該框架的特點是引入多Agent系統(tǒng),可由不同的Agent分別擔當整個流程中分發(fā)/決策/執(zhí)行的不同角色,充分發(fā)揮各個Agent優(yōu)勢,提升任務執(zhí)行的效率。

此外,在多元化場景下,Agent部署方式和工具調(diào)用能力也影響著用戶需求是否能被快速、準確的執(zhí)行。以蔚來Nomi為例:

Nomi Agents分別在端側、云端兩個部分進行部署,端側與云端分別搭載端側模型與NomiGPT,端側模型與SkyOS深度融合,能夠及時調(diào)用原子能力,進行跨域資源的調(diào)度(如數(shù)據(jù)、車控硬件/軟件等),加快響應速度;云端Nomi GPT連接更多云端工具資源接口,進一步加強Nomi Agents工具調(diào)用能力。Nomi Agents架構布置在SkyOS中間件層,通過與SkyOS結合,調(diào)用原子API、硬件/軟件、數(shù)據(jù)的過程更加自然協(xié)調(diào)、也更加迅速。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
A3966SLBTR-T 1 Allegro MicroSystems LLC Stepper Motor Controller, 0.75A, BIPolar, PDSO16, LEAD FREE, PLASTIC, MS-013AA, SOIC-16

ECAD模型

下載ECAD模型
$3.39 查看
FSS1500NST 1 Honeywell Sensing and Control Analog Circuit,
$71.59 查看
LTC6995IS6-2#TRPBF 1 Analog Devices Inc LTC6995IS6-2#TRPBF
暫無數(shù)據(jù) 查看

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

佐思汽車研究:致力于汽車、TMT、新能源(特別是新能源汽車、智能汽車、車聯(lián)網(wǎng))領域的產(chǎn)業(yè)研究、專項調(diào)研、戰(zhàn)略規(guī)劃和投資咨詢服務。