• 正文
  • 相關推薦
申請入駐 產業(yè)圖譜

智能體綜述:起源、演進與大模型時代的新內涵

07/02 09:45
378
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

AI先鋒洞察】近兩年隨著大模型能力的不斷躍升,“智能體”越來越多進入到公眾視野,成為學者、程序員、投資人爭相關注的話題和對象。年初Manus團隊發(fā)布的智能體應用案例著實讓人感到,智能體不再是學術概念,而已經走入到人們的工作生活,用戶只需通過自然語言描述需求,智能體即可快速響應并執(zhí)行任務。然而智能體究竟是什么,不同時代、不同人群和不同角度都有著不同的定義。本文嘗試做一個相對客觀的綜述,并著重闡述大模型時代的概念內涵。

一、引言

智能體(Agent)的概念并非起源于大型語言模型(LLM)時代,其思想可以追溯到20世紀60年代人工智能的初期。隨著技術的發(fā)展,智能體逐漸從學術理論走向工業(yè)應用,并在近年來迎來爆發(fā)式發(fā)展。尤其在大模型賦能下,智能體(Agent)技術作為連接感知、決策與行動的核心概念,正重新煥發(fā)活力——從傳統任務驅動系統演進為具備更強認知和協作能力的自主體。本文將系統回顧智能體的起源、定義、發(fā)展歷程與技術架構演進,并討論其在大模型時代的價值重塑與新內涵。

二、智能體的起源與定義

最初“agent”概念來源于哲學和生物學,用以描述具備自主性、自我調節(jié)能力的實體。20世紀50年代末至70年代,人工智能研究中開始引入“agent”概念,用于模擬具備感知-決策-行為循環(huán)的系統。

一個智能體通常被定義為:

“一個在環(huán)境中感知并采取行動以實現目標的系統”(Russell & Norvig,?Artificial Intelligence: A Modern Approach)

核心特征包括:

  • 感知(Perception)
  • 決策/推理(Reasoning/Planning)
  • 行為(Action/Execution)
  • 目標導向(Goal-driven)
  • 自主性(Autonomy)
  • 可適應性與學習能力(Adaptability & Learning)

三、發(fā)展歷程

第一階段:符號主義(規(guī)則驅動)智能體(1950s–1990s)

早期的智能體系統多基于符號主義,依賴于預定義的規(guī)則和知識庫。這些系統通常是專家系統,通過人工編碼的規(guī)則進行推理和決策。行為模式靠固定規(guī)則驅動,缺乏自主學習與適應能力。

第二階段: 連接主義(任務驅動)Agent (1990-2010)

隨著神經網絡機器學習的發(fā)展,連接主義方法開始應用于智能體設計。這些Agent能夠通過學習數據來改進其行為,但通常缺乏復雜的推理和規(guī)劃能力。強化學習(RL)與深度學習結合,智能體從“感知+規(guī)則”演進為“感知+學習+優(yōu)化”。典型應用:AlphaGo、OpenAI Gym、DeepMind控制智能體。

第三階段:大模型Agent (2020至今)

大型語言模型(LLM)的出現為智能體技術帶來了革命性的變革。LLM Agent 能夠理解和生成自然語言,智能體不再僅僅是腳本的執(zhí)行器,更具備任務分解、計劃制定、過程管理等能力,能夠處理復雜的任務和環(huán)境,智能體具有更強的泛化能力。智能體作為新一代“智能操作單元”,將重塑原有系統的運行邏輯與交互方式。

表1 智能體發(fā)展歷程

四、大模型時代下的智能體新價值與內涵

1、從傳統到LLM時代的智能體架構變化

傳統智能體:傳統智能體通常包括感知、認知和行動三個模塊。感知模塊負責接收環(huán)境信息,認知模塊進行推理和決策,行動模塊執(zhí)行相應的動作。這種架構在處理復雜任務時面臨知識表示、推理效率和泛化能力等方面的挑戰(zhàn)。

基于LLM的智能體:基于LLM的智能體利用預訓練的LLM作為核心的認知引擎,能夠直接處理自然語言形式的任務指令和環(huán)境信息,具備了語義理解、推理和語言輸出能力?;凇罢Z言-工具-執(zhí)行”閉環(huán)的智能體具有了“認知+行動”的閉環(huán)能力,同時大模型具備的“跨任務遷移”與“少樣本適應”能力,使得智能體在未見任務上表現出更高魯棒性,

與傳統智能體相比,基于LLM的智能體在知識來源、泛化能力和交互方式等多個維度上實現了代際跨越。當今的智能體代表著由三大關鍵發(fā)展融合推動的質的飛躍:①LLM 前所未有的推理能力、②工具操作和環(huán)境交互方面的進步、③支持縱向經驗積累的復雜記憶架構。這種融合將理論構想轉化為實用系統,日益模糊了助手和協作者之間的界限。這種轉變從根本上源于LLM作為通用任務處理器的角色,它通過生成統一語義空間內的感知、決策和行動,從而形成類似人類的認知循環(huán)。

如圖描述了一個典型的智能體多層架構,主要由三個主要部分組成:用戶層、功能層、方案層、智能體層、知識層、數據模型層,以及本體層。智能體層可能由多個不同角色的智能體組成,例如“過程調度代理”、“需求分析代理”、“方案匹配代理”和“方案生成代理”。知識層由不同類型的知識圖組成:“對象-關系圖”、“事件圖”、“模型圖”和“解決方案模型”。這些知識圖作為系統的知識庫,為上層提供支撐。

2、 面向復雜環(huán)境的多智能體協作

多智能體系統(Multi-Agent Systems, MAS)是人工智能的重要分支,涉及多個自治智能體在共享環(huán)境中的感知、決策、協作與博弈。MAS系統結合大模型進行復雜博弈、協作任務(如復雜戰(zhàn)場模擬、多機器人協作)成為解決復雜問題的必然路徑,也成為智能體系統重要的研究方向。其關鍵技術包括智能體建模、通信協議、任務協作、博弈與機制設計、多智能體強化學習、沖突協調、系統魯棒性以及環(huán)境信息融合。隨著大模型的發(fā)展,MAS正向“語言+認知+協作”模式演進,實現更自然的任務協商、更強泛化能力和跨模態(tài)智能控制,在軍事、制造、城市仿真等領域展現出廣闊的應用前景與戰(zhàn)略價值。

HASHIRU 是一種典型的新式 MAS 框架,旨在增強靈活性、資源效率和適應性。它利用“CEO”智能體動態(tài)管理專門的“員工”智能體,由經濟模型驅動其分層控制結構實施智能體生命周期管理。

HASHIRU 的特色是“CEO”智能體,可以根據任務需求和資源約束(成本、內存)選擇性對員工智能體進行實例化。優(yōu)先考慮較小的本地 LLM,同時在必要時靈活使用外部API和更大的模型。包含招聘/解雇成本的經濟模型有助于團隊穩(wěn)定和高效的資源配置。該系統還包含自主API工具創(chuàng)建和記憶功能。

3、 自主學習

近年來,自主學習能力在大模型智能體中變得越來越重要。由于任務復雜性和多樣性的增加,傳統由人類或外部模型監(jiān)督的大語言模型成本高昂,并且可能面臨性能瓶頸。為了解決這個問題,自我進化方法應運而生,它使 LLM AGENT 能夠自主地獲取、改進經驗,從模型本身生成的經驗中學習、從多智能體協同演化中學習,以及通過外部資源演化學習。這些機制共同增強了模型在復雜環(huán)境中的適應性、推理能力和性能。

自主優(yōu)化和自學習使LLM智能體能夠在無需大量監(jiān)督的情況下提升其能力。這包括自監(jiān)督學習、自反思、自校正和自獎勵機制,使模型能夠動態(tài)地探索、調整和完善其輸出。

  • 自監(jiān)督學習,使 LLM 智能體能夠改進使用未標記或內部生成的數據,從而減少對人工注釋的依賴。
  • 自我反省和自我糾正,使LLM智能體能夠通過識別和解決錯誤來改進模型,迭代完善其輸出,自我驗證技術使模型能夠回顧性地評估和糾正其輸出,從而做出更可靠的決策。
  • 自我獎勵與強化學習,使LLM能夠通過生成內部獎勵信號來提升性能。自我生成的獎勵有助于模型改進決策,并保持穩(wěn)定一致的學習改進。對比蒸餾使模型能夠通過自我獎勵機制進行自我調整。此外,通過強化學習策略,利用評估方法促進自我改進,也可以增強LLM的適應性。

多智能體協同進化使 LLM 能夠通過與其他智能體的交互而不斷改進。這包括合作學習(智能體共享信息并協調行動)以及競爭性協同進化(智能體參與對抗性互動以改進策略并提升性能)。

外部資源通過提供結構化信息和反饋來增強智能體的進化。知識增強型進化整合結構化知識以改進推理和決策,而外部反饋驅動型進化則利用來自工具和環(huán)境的實時反饋來優(yōu)化模型性能。

五、展望與挑戰(zhàn)

當前智能體技術的廣泛應用面臨以下挑戰(zhàn):

1、長期記憶與狀態(tài)保持機制不完善

當前智能體多采用短期上下文處理方式,缺乏對歷史經驗和多輪交互狀態(tài)的持續(xù)記憶。可以通過引入向量數據庫+長短期記憶融合結構(如Memory-Augmented Transformers、RAG機制),通過構建可檢索知識記憶模塊,結合會話上下文持續(xù)追蹤狀態(tài),實現“任務級”長期記憶能力。

2. 可解釋性與魯棒性問題

大模型驅動的智能體常被視為“黑箱”,難以追溯其推理鏈條或在異常輸入下保持穩(wěn)定表現。發(fā)展“神經-符號融合架構”,引入因果圖譜、可視化推理路徑等手段,提升推理過程的透明度;同時結合對抗樣本訓練與魯棒性評估機制,提升系統對異常輸入和邊界條件的容錯能力。

3. 多智能體系統中的沖突解決機制

多智能體協作中易出現資源競爭、目標沖突和策略分歧,缺乏有效的協商與調解機制。引入博弈論機制(如Nash協商、機制設計)與強化學習中的多主體信用機制(credit assignment),結合任務驅動的“協商智能體”,實現沖突檢測與自適應協商調解,保持系統協同穩(wěn)定性。

六、結語

大型語言模型智能體具有目標驅動行為和動態(tài)適應能力,代表了通向通用人工智能的關鍵途徑。智能體技術的演進體現了人工智能從工具化向自治化的躍升。在大模型加持下,智能體將不僅是人工智能的體現形式,更是未來智能系統的核心組織單元,承載著人類復雜任務的理解與執(zhí)行使命。深入研究與構建“面向目標、具備學習、可感知、能決策”的通用型智能體,是邁向更強AI的關鍵路徑之一。

相關推薦