• 正文
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

美國知名風(fēng)投a16z合伙人對話:到底什么是AI智能體?

05/28 14:49
917
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

在《AI + a16z》在4月28日播放的節(jié)目中,a16z負責(zé)基礎(chǔ)設(shè)施領(lǐng)域的合伙人 Guido Appenzeller、Matt Bornstein和Yoko Li探討了目前科技行業(yè)最熱門的話題之一:AI 智能體(AI agents)。

三位嘉賓從多個角度深入討論了這一概念,包括:

是否存在一個統(tǒng)一的“智能體”定義

如何區(qū)分智能體、大語言模型(LLM)和功能函數(shù)(functions)

如何思考智能體的定價模式

智能體是否真的可以替代人類

數(shù)據(jù)孤島對能訪問網(wǎng)絡(luò)的智能體會產(chǎn)生哪些影響?

他們聲稱并不掌握了所有答案,但他們提出了一系列值得所有正在開發(fā)、購買,甚至推廣AI 智能體的人關(guān)注的問題與洞見。

該播客原文鏈接:https://a16z.com/podcast/what-is-an-ai-agent/

以下為完整對話內(nèi)容

超算百科編譯

Guido Appenzeller:我覺得有些事情我們可以先說清楚。首先,“智能體”這個概念本身就存在很多分歧。我們在技術(shù)層面聽到過很多不同的定義,甚至在市場和銷售方面也是一樣,因為這里面涉及一些銷售模式。

我們先從技術(shù)角度談起吧。我認為這里有一個連續(xù)譜(存在一個從簡單到復(fù)雜的不同層次)。我聽過最簡單的“智能體”定義,其實就是一個聰明的提示詞(prompt),它基于某種知識庫或上下文,并具有類似聊天界面的功能。

從用戶的角度來看,這種東西看起來就像一個人類智能體,對吧?比如,如果我問:“我在產(chǎn)品 X、Y、Z 上遇到了技術(shù)問題”,它就會查看知識庫并返回一個預(yù)設(shè)好的回答。

Yoko Li:但也不一定非得有知識庫,對吧?

Guido:是的,不一定非得有知識庫。我明白了。所以也許它只是一個訓(xùn)練好的模型。模型權(quán)重本身就是知識,所以它更簡單。那么,根據(jù)某些定義,一個智能體可能就只是一個帶有聊天界面的大語言模型,對嗎?

Yoko:沒錯。

Guido:而在另一端,有些人則認為,只有具備接近通用人工智能(AGI)能力的東西才能稱為真正的智能體。它需要長期持續(xù)運行,能夠?qū)W習(xí),擁有知識庫,并能獨立解決問題。如果我們采用最極端的定義,是不是可以說,這樣的“智能體”現(xiàn)在還不存在?

Yoko:我認為是的,目前還不行。

Guido:那以后會實現(xiàn)嗎?

Yoko:這是個哲學(xué)問題。

Guido:好吧,確實如此。那么,如果我們考慮中間的狀態(tài),有沒有辦法把這整個連續(xù)譜分成幾個類別,或者至少是不同等級的“智能體行為”?

Yoko:當(dāng)然有不同的智能體類型。比如有幫助藝術(shù)家創(chuàng)作新的貝塞爾曲線的藝術(shù)智能體;也有我們常提到的編程智能體,也就是所謂的“每日智能體”(這里指的是目前最受關(guān)注、最常被討論、最有潛力落地的 AI 智能體類型)。

Guido:而且我們自己也在用。

Yoko:沒錯,我們確實在用。還有些智能體只是 LLM 的封裝

Guido:對。

Matt Bornstein:我想我是這群人中的反方觀點者。在我看來,“智能體”這個詞其實就是 AI 應(yīng)用程序的代稱。任何使用 AI 的東西,現(xiàn)在都可以被稱為智能體。在這次談話之前,我還特意去網(wǎng)上查了一下,看看有沒有什么關(guān)于 AI 智能體的有趣觀點。我發(fā)現(xiàn) Karpathy 幾年前做過一個非常精彩的演講,我可以稍微介紹一下。不過有意思的是,在 YouTube 推薦視頻里,標題都是“AI 智能體將徹底改變你的生活方式”、“超級智能 AI 的崛起”之類的。這明顯就是市場營銷的套路。

我認為最清晰的定義是一個能進行復(fù)雜規(guī)劃并能與外部系統(tǒng)交互的東西。但問題是,現(xiàn)在的 LLM 本質(zhì)上已經(jīng)具備這兩項能力了。它們通常內(nèi)置了規(guī)劃能力,并且至少能從互聯(lián)網(wǎng)或通過 MCP 等協(xié)議獲取信息。因此,這條界限其實非常模糊。

Karpathy 的演講特別有意思,他把 AI 智能體比作自動駕駛汽車,認為這是一個真實存在的問題,但更像是一個十年期的項目。而我們現(xiàn)在看到的大多數(shù)東西,更像是“周末 demo 版本”(這里指的是它們更像是開發(fā)者花一兩個晚上快速做出來的演示產(chǎn)品,而不是真正成熟、穩(wěn)定、具備長期自主能力的系統(tǒng))。這也是為什么我們會產(chǎn)生這么多混亂的原因:我們面對的是一個定義不清、模糊不清的概念,而 LLM 正在不斷吞噬它。

所以我個人認為,我們目前擁有的東西都不是真正意義上的智能體?!爸悄荏w”這個詞本身可能就是一個定義不清、被過度使用的術(shù)語。但如果有人愿意花時間去認真定義“智能體”到底是什么——比如,如何以數(shù)字形式復(fù)制一個人的行為,并投入十年時間讓它真正發(fā)揮作用,這才是我真正期待看到的。

Guido:所以,定義“智能體”是一件困難的工作。也許我們可以換個角度,談?wù)勅藗兪侨绾问褂盟麄兎Q之為“智能體”的工具,以及這些工具在智能體行為上的程度差異。

Yoko:我也覺得我們或許應(yīng)該重新定義“智能體”,因為我們都知道“智能體”這個詞本身就不是個好術(shù)語。它對不同的人來說意味著太多不同的東西。如果我們要深入探討這個問題,我們需要明確:我們所說的“智能體”到底指什么?別人說“智能體”時又意味著什么?我們還可以用哪些方式來利用這種被稱為“智能體”的過程?

Guido:我覺得,如果我們試圖定義“智能體”或至少是“智能體行為的程度”,或許更容易一些。這背后似乎有一個用戶界面方面的因素。比如說,一個純輔助助手(copilot),用戶和 LLM 來回互動完成任務(wù),通常不被稱為“智能體”,對吧?這有點像“輔助助手”和“智能體”之間的 UI 模式區(qū)別。

Yoko:是的。那你覺得“智能體行為”應(yīng)該包含哪些元素呢?比如 Matt 提到的“規(guī)劃”可能是一個要素,還有“決策”也是。當(dāng)然必須要有 LLM 的參與。我很想聽聽你的看法。

Guido:最近我們聽到 Anthropic 對“智能體”的一種定義是:一個 LLM 在調(diào)用工具的過程中循環(huán)運行。這有兩個關(guān)鍵點:第一,它不是一個單一的提示詞,也不是一組靜態(tài)的提示序列,而是 LLM 能夠?qū)⑤敵龇答伣o自己,并據(jù)此決定下一步該怎么做。甚至還能決定何時終止某個任務(wù)。對于那些更高級的智能體行為來說,這個定義算是比較合理的。

Matt:但按照這個定義,那每個聊天機器人豈不是都成了智能體?比如我去 chatgpt.com 用他們的最新推理模型加網(wǎng)絡(luò)搜索功能,它難道不是在調(diào)用工具并將輸出結(jié)果反饋到新的提示詞中,從而執(zhí)行鏈式思維嗎?

Guido:鏈式思維處于兩者之間。如果只是一個單提示詞返回結(jié)果,那不具備“規(guī)劃”和“長期任務(wù)”的特征。但如果是一個復(fù)雜的任務(wù),那就開始看起來像是智能體行為了。

Matt:我覺得定義一個系統(tǒng)真的很困難,尤其是當(dāng)它的輸入是人為設(shè)定的時候。因為這些系統(tǒng)的設(shè)計初衷是處理非結(jié)構(gòu)化輸入,它們幾乎可以接受任何內(nèi)容。如果你讓它查天氣,那顯然不是智能體行為,只是調(diào)用 API。但如果你讓它“定義一種新的天氣哲學(xué)”,它也會很樂意去做。所以,有時候它是智能體,有時候不是,這就是市場上很多人感到困惑的地方。

如果我們用你剛才說的那種方式來描述,即“一個與工具聯(lián)動的 LLM 循環(huán)”,我覺得這樣更有意義。

Guido:話說回來,我們似乎正在看到用戶界面出現(xiàn)一定程度的專業(yè)化趨勢,大概分為兩個方向。一個是像 Cursor 這樣的工具,它強調(diào)用戶、LLM 和工作對象之間的緊密反饋循環(huán)。我希望在操作時能立即得到響應(yīng),延遲越低越好。另一個則是后端系統(tǒng)插件,比如源代碼管理系統(tǒng)。這類智能體更多是通過回答幾個問題就把任務(wù)扔過去,然后盡可能讓智能體獨立工作一段時間。

所以,雖然你說得對,我們很難在系統(tǒng)定義上劃出一條清晰的界限,但用戶界面方面確實出現(xiàn)了某種程度的分化。你覺得這個說法合理嗎?

Yoko:我?guī)缀跤X得,在我們提到的所有智能體應(yīng)用場景中,它們都有一個共同的核心要素:推理和決策能力。?如果你只是讓 LLM 把一段文本翻譯成 JSON,那可能不算智能體。但如果你讓 LLM 決定“這段回復(fù)該發(fā)給誰,并自動發(fā)送給對應(yīng)的人”,這就更像智能體了。它更像是一個計劃過程。我不確定智能體是否需要“規(guī)劃”還是只需要“決策”,也許兩者都需要。我覺得它更像是一個多步驟的 LLM 鏈條加上一個動態(tài)的決策樹。

Guido:是的,動態(tài)決策樹。

Yoko:沒錯。

Matt:我覺得我們都被這個問題“套住了”。人文學(xué)者喜歡分類,喜歡在不同類型的事物之間做細微區(qū)分。但我們是計算機科學(xué)家,不是那種人。所以我們不太擅長處理這種介于零和一之間的事情,總是試圖把它歸為其中一種。

當(dāng)然,“智能體”不僅僅是技術(shù),它也正在成為一種產(chǎn)品,這意味著它也需要被營銷。一個人如何定位自己的產(chǎn)品,會極大影響其定價策略。更重要的是,大多數(shù)智能體的價值目前仍不確定,它們能在多大程度上真正取代或僅僅是增強人類工作者的能力,仍是未知數(shù)。

Guido:確實有一個有趣的點,那就是“智能體”確實有營銷的角度。我聽過一些初創(chuàng)公司的說法,他們基本上是在說:“嘿,我們能把自己的軟件定價更高,因為它是一個智能體?!庇谑撬麄兛梢愿嬖V客戶:“你可以用這個智能體代替一個人工員工。那個人工員工年薪五萬美元,而我們的智能體只要三萬?!甭犉饋砗苡形?。實際上,早期階段這種對比定價對買家來說確實容易理解。

但從另一方面看,我們知道產(chǎn)品的價格最終都會趨近于邊際生產(chǎn)成本。比如以前我請人翻譯一頁文字,現(xiàn)在我用 ChatGPT,我根本不會按原來的價格付錢。我只是支付 API 成本的一小部分,也就是幾分錢而已。所以我很好奇,這場關(guān)于“智能體”的爭論有多少是由營銷和定價驅(qū)動的。

Matt:我覺得這個問題也很有意思。你們能想到哪些領(lǐng)域已經(jīng)被 AI 或 AI 智能體完全取代了嗎?我提前說明一下,我有個極端的觀點,等下再說。

Yoko:目前還沒有完全取代的情況,但肯定有部分替代。例如語音智能體正在逐步取代接待員,或者負責(zé)回應(yīng)客戶的工作人員。很多傳統(tǒng)由人工完成的任務(wù)已經(jīng)轉(zhuǎn)移給了 AI。但我認為它們還沒達到 100% 替代的程度。人類可以去做其他事情了。我們看到的是,一些崗位的招聘增長放緩了。也就是說,不是現(xiàn)有工作被取代,而是新增崗位減少了。

Guido:完全正確。我認為在少數(shù)情況下,AI 會完全取代人類。但在大多數(shù)情況下,是兩個員工變成一個員工,但這個員工的效率提高了。

Matt:或者公司可能仍然保留兩名員工,只是讓他們做別的事。

Guido:也可能變成三名員工,因為他們變得更高效了。

Matt:是的。這真是個很有趣的問題。我覺得它之所以與“智能體”相關(guān),是因為人們有一種錯覺,認為我們會創(chuàng)造出真正的人類替代品。而“智能體”這個名字本來就是用來稱呼人的——在我們沒有 AI 的時候,我們就有人叫“智能體”,現(xiàn)在依然有很多人被稱為智能體。但事實上并沒有發(fā)生這種替代。正如你所說,Yoko,我們早就有客服自動化了,比如 1-800 號碼,讓你按鍵選擇服務(wù)選項。這種東西早就存在了。現(xiàn)在的 AI 只是做得更好而已。

翻譯也是一個很好的例子,Guido。這些系統(tǒng)確實可以很好地執(zhí)行翻譯任務(wù),但你不太可能直接把一段內(nèi)容丟給 ChatGPT,然后直接發(fā)布到網(wǎng)站上。實際上還需要做一些后續(xù)工作。我覺得這是因為大多數(shù)人類從事的工作中,其實都有創(chuàng)造性的成分。我們在硅谷有時會忘記這一點——世界各地的人都在做各種各樣的工作,這些工作并不只是“有人必須做”的苦力活,而是需要思考和判斷的工作。我不確定 AI 是否具備我們所理解的“意圖”或“決策能力”。它仍然是一個需要有人按下按鈕的系統(tǒng)。它可能在后臺運行得很好,但它仍然需要有人給出提示并啟動它。這是我眼中造成混淆的核心原因。

我們都覺得有一天,某個具有意圖、創(chuàng)造力和思考能力的人類會被 AI 取代。但我懷疑這是否在理論上是可能的。這幾乎是個悖論:如果說一個 AI 是在“自主思考”,那它也一定是某個人設(shè)計出來的。這已經(jīng)進入老派科幻小說的哲學(xué)范疇了,但我確實認為這是我們當(dāng)前混亂的一個重要原因。

Yoko:有趣的是,我們現(xiàn)在討論的“智能體”有兩種類型。一種是替代或協(xié)助人類工作的智能體,另一種是更底層的系統(tǒng)流程智能體,它們彼此協(xié)作,互相傳遞任務(wù)。某種程度上,智能體就像是系統(tǒng)中的技術(shù)細節(jié)。但我們在談?wù)摗爸悄荏w”時,這兩種含義都包括在內(nèi)。

Guido:如果是這樣的話,那“智能體”和“函數(shù)”之間有什么區(qū)別嗎?

Yoko:我認為是有區(qū)別的。智能體應(yīng)該是多個函數(shù)加上中間的 LLM。

Guido:如果我有一個低級別的智能體,我給它一個任務(wù),它返回一個任務(wù)結(jié)果,那看起來有點像傳統(tǒng)的 API 調(diào)用。

Yoko:但中間有 LLM 來決定該做什么 API 調(diào)用。

Guido:明白了。但這不就是函數(shù)內(nèi)部的工作機制嗎?

Yoko:是的。

Guido:那從外部來看,我會在意這個區(qū)別嗎?

Yoko:你不會在意。比如我們常說的 AI 銷售發(fā)展代表(SDR)智能體,意思就是它可以訪問 CRM 系統(tǒng),提取數(shù)據(jù)、篩選列表、起草郵件并發(fā)送郵件。這更像是流程級的操作,而不是人類級別的操作。

Guido:完全正確。

Yoko:是的,這就是我的意思。

Guido:如果你不知道它內(nèi)部是怎么運作的,那傳統(tǒng)的函數(shù)和智能體其實是無法區(qū)分的。

Yoko:完全同意。但作為程序員,當(dāng)你寫一個函數(shù)時,你會定義一個智能體接口。

Guido:明白了。我們稍后再回到定價問題。在此之前,讓我們更深入地討論一下與智能體互動的方式與傳統(tǒng)軟件功能有何不同或相似之處。

Matt:關(guān)于這個問題,還有一個很有趣的點。我完全同意你的看法,Guido,我覺得你也基本同意。如果你從功能角度來看,它其實就是一個函數(shù)。可共享、可復(fù)用的函數(shù)一直以來都不是一件容易的事。這是市場中一直嘗試的目標之一。人們曾希望“我可以寫一個函數(shù),地球上的任何人都可以使用它”。比如,你可以下載一個包含多種功能的包,但要單獨分享一個函數(shù)卻很難做到。

但現(xiàn)在有了 AI,這種想法某種程度上實現(xiàn)了。因為你可以下載別人訓(xùn)練好的模型,微調(diào)它,訓(xùn)練 LoRA,然后打包上傳到 HuggingFace 等平臺,供其他人使用。雖然是否使用 LLM 是一個實現(xiàn)細節(jié),但模型本身占據(jù)了函數(shù)的大部分功能,這是一種與傳統(tǒng)代碼截然不同的“動物”。它天生具有一定的共享性,因為沒人每次寫代碼都要重新訓(xùn)練模型。當(dāng)然,它也有一些缺點,比如體積大、部署難等等。但我認為,未來我們會圍繞這種新型功能構(gòu)建新的基礎(chǔ)設(shè)施和開發(fā)工具。

Guido:這很有道理?;叵脒^去,上一次我們發(fā)明了一個重要的新組件來構(gòu)建系統(tǒng),可能是網(wǎng)絡(luò)技術(shù)。當(dāng)時我們對“調(diào)用函數(shù)”的理解發(fā)生了巨大變化。

Matt:完全正確。

Guido:API 的復(fù)雜性和圍繞它的基礎(chǔ)設(shè)施今天完全不同了。

Yoko:這真是個很棒的觀點。現(xiàn)在想想,我覺得人類其實也可以看作是一種函數(shù)。如果你做一個思想實驗,把程序中的 LLM 替換成人類,你會發(fā)現(xiàn)它給程序帶來的輸出其實和 LLM 差不多。

Matt:如果有一天我們都接入服務(wù)器,可以像 Lambda 函數(shù)一樣被調(diào)用,那我才同意“智能體”真的誕生了。那才是真正的智能體。

Guido:那 Mechanical Turk 不就是這樣的嗎?或者甚至你的收件箱?

Matt:是的,聽起來像個智能體。

Yoko:我記得亞馬遜幾年前在舊金山開了一家 Amazon Go 超市,宣傳說是背后的計算機視覺模型識別顧客拿走了什么商品。但后來人們發(fā)現(xiàn)他們其實雇傭了很多人在后臺實時標注數(shù)據(jù)。所以在那個案例中,人類就是……

Guido:秘密智能體。

Yoko:沒錯,如今可能已被 LLM 取代了。

Matt:這正是我想說的。即使是超市收銀員這樣的工作,你以為很簡單,其實并不簡單。你可以用自動化來壓縮這部分工作量,但它永遠不會完全消失。

Yoko:是的,完全同意。好了,既然如此,企業(yè)應(yīng)該如何為他們的智能體定價呢?按使用人數(shù)、按 token、還是按任務(wù)?提示:現(xiàn)在下結(jié)論可能還太早。

Guido:一般來說,當(dāng)你推出一個全新的產(chǎn)品類別時,最初的定價往往是參照現(xiàn)狀來的。你要么替代,要么增強某些原有功能。假設(shè)我們真的能直接替代一個人類,那就可以按照“這個人年薪多少”來定價。但隨著時間推移,競爭加劇,價格會逐漸向邊際成本靠攏。這取決于很多因素,比如你是否有護城河、客戶是否鎖定等等。長遠來看,大多數(shù)智能體的成本都很低,尤其是僅依賴幾個 LLM 調(diào)用就能運行的智能體,而且成本還在不斷下降。

Matt:我甚至認為這已經(jīng)在發(fā)生了。大多數(shù) AI 應(yīng)用,特別是我們稱之為 AI 智能體應(yīng)用的,它們的銷售話術(shù)通常是“你應(yīng)該付我們 X 元,因為我們幫你省下了 Y 元”。這是一種經(jīng)典的 ROI(投資回報率)計算方式。

Guido:建立價值對吧。

Matt:是的,價值定價。但現(xiàn)實中,大多數(shù)買家其實很清楚幕后發(fā)生了什么。他們知道這些東西其實很簡單。所以他們會問:“運行這些 GPU 成本是多少?我們愿意為此支付一點溢價?!蔽艺J為現(xiàn)在很多供應(yīng)商就是這樣定價的。

Guido:從長遠來看,你期望獲得健康的利潤率,就像 SaaS 一樣,歷史上 SaaS 的利潤率一直很高。

Yoko:挺有意思的,我們總是建議公司不要基于成本定價,而是基于你為客戶創(chuàng)造了多少價值。這可能是相對于市場上其他供應(yīng)商,或者是相對于自建系統(tǒng)的成本。傳統(tǒng)上,基礎(chǔ)設(shè)施服務(wù)如果是給人用的,通常是按座位收費;如果是機器之間的服務(wù),則是按使用量計費。但我不知道“智能體”應(yīng)該放在哪一類。

Guido:它可能既可以被人使用,也可以被智能體使用。

Yoko:沒錯。

Matt:我覺得你的分析是對的。現(xiàn)實是大多數(shù) AI 公司還不清楚自己到底創(chuàng)造了什么價值。這個行業(yè)太新了,大家還在摸索。比如 OpenAI,他們已經(jīng)有幾百萬用戶了,但很可能不清楚這些用戶到底在用它做什么。一旦他們搞清楚了——你現(xiàn)在可以看到他們在垂直領(lǐng)域發(fā)力,推出針對特定場景的產(chǎn)品,比如代碼生成——那時定價才會真正跟上來。

Yoko:這讓我想起你提到的 OpenAI 的例子。我在想 AI 伴侶,因為那是最接近“按使用人數(shù)收費”的人類應(yīng)用場景。你不可能因為你和你的 AI 伴侶說了多少句話就收費。雖然有些基礎(chǔ)模型……

Matt:確實有一些服務(wù)是按響應(yīng)次數(shù)收費的,我沒用過,但它們確實存在。

Yoko:哦?哇。所以一般不會按“你和 AI 伴侶聊了多少句”來收費,通常都是按月訂閱制。

Guido:如果每次說話都要收費,感覺就不像真朋友了,對吧?

Yoko:沒錯,那太交易化了。

Matt:這些都是理論上的討論。人們喜歡坐在一起暢談:“我們要按人數(shù)、按任務(wù)、按拯救的世界經(jīng)濟來收費!”但實際上這些定價都是拍腦袋想出來的。Guido 說得對,我們應(yīng)該先看看我們所謂的“智能體”背后的技術(shù)是什么,在哪里部署,為什么部署。定價、營銷、銷售策略,這些都會隨之而來,取決于你實際在賣什么。

如果你現(xiàn)在賣的東西看起來像智能體,但你還沒搞清楚它到底為用戶創(chuàng)造了什么價值,那你將來怎么證明自己有資格漲價?

Matt:你需要賣的是一個解決方案,而不是一個產(chǎn)品。這在企業(yè)市場的打法中是非常成熟的思路。代碼就是一個例子,現(xiàn)在它的價格已經(jīng)脫離了底層技術(shù),因為它確實有效,ROI 很清晰。作為一個工程 VP 或 CTO,你可以明確地說:“我節(jié)省了很多成本,團隊效率提升了。”你可以做出正常的 ROI 分析。

Guido:而且員工也會更開心。

Matt:是的。你買的是一個解決方案,一個能解決你問題的產(chǎn)品。微軟、甲骨文、Salesforce 的做法一直都是如此。一旦我們看到更多這樣的案例,這些產(chǎn)品才會真正成為商業(yè)實體,定價也會變得像傳統(tǒng)企業(yè)那樣穩(wěn)定。

Yoko:我認為這取決于高層應(yīng)用。舉個例子,我玩 Pokémon GO。當(dāng)你收集了足夠的寶可夢,但背包滿了之后,你就得花錢買一個新的虛擬背包。作為一名基礎(chǔ)設(shè)施投資者,我投資存儲業(yè)務(wù),當(dāng)我看到為額外 30 個寶可夢空間付費的價格時,發(fā)現(xiàn)它比真實的存儲成本貴了幾千倍。這讓我意識到……

Guido:我驚訝它只貴了幾千倍。

Yoko:是的,只貴了幾千倍。

Guido:我以為是 10^15 倍。

Yoko:沒想到吧,寶可夢存儲居然有一整條價格曲線。其實這背后有兩個原因:一是壟斷,二是應(yīng)用場景不同。普通玩家不會去想“存儲到底多少錢”,他們只關(guān)心“為了這個游戲值不值得花這個錢?”對他們來說,只要好玩,多花一百美元也沒關(guān)系。

Matt:是的,這正是我要說的。隱含的意思是,這個產(chǎn)品或解決方案必須對他們有用,對非技術(shù)人員來說,他們不會去自己搭建一個 S3 存儲桶來自托管寶可夢。

Guido:是的,尤其是寶可夢。

Yoko:而且這個差異化是可以防守的,因為 Pokémon GO 不是開源的,也沒有替代品。只有一個地方你能買到寶可夢存儲。

Guido:再加上強大的品牌效應(yīng),還有社交網(wǎng)絡(luò)效應(yīng),你可以和朋友一起玩。

Yoko:是的。我相信未來我們會看到 AI 智能體版本的這種現(xiàn)象,比如為 AI 伴侶的衣柜付費存儲。

隨著 AI 市場的發(fā)展和演變,“智能體”的能力最終會落在哪里?比如,它們是集成在 LLM 中,還是必須調(diào)用外部工具?誰最有能力影響這個發(fā)展方向?

Guido:這是一個非常有趣的問題。從系統(tǒng)架構(gòu)的角度來看,我認為智能體的構(gòu)建方式與今天的 SaaS 軟件沒有太大區(qū)別。讓我解釋一下。在一個智能體中,我們通常有一個 LLM 加上提示詞組成的循環(huán)結(jié)構(gòu),并結(jié)合外部工具的使用。LLM 本身由于高度專業(yè)化,需要龐大的 GPU 集群支持,因此通常需要獨立部署。狀態(tài)管理方面,今天我們在 SaaS 中都是通過數(shù)據(jù)庫等外部系統(tǒng)來處理的,因此也應(yīng)該外部化。剩下的邏輯其實非常輕量,主要是從數(shù)據(jù)庫中檢索上下文、組裝提示詞、運行提示詞,并偶爾調(diào)用工具。這些核心邏輯可以在一臺服務(wù)器上運行大量的智能體實例,不需要太多的計算資源。這個思路對嗎?

Matt:是的,我完全同意。對我而言,一個有趣的架構(gòu)問題是,如何處理 LLM 輸出的不確定性。許多我們常用和喜愛的 AI 應(yīng)用,比如聊天機器人或圖像生成器,它們只是把模型的輸出返回給用戶。但當(dāng)你試圖將 LLM 的輸出整合進程序的控制流中時,這其實是一個非常難解決的問題。雖然目前架構(gòu)差異不大,但未來可能會引發(fā)更深遠的變化。

Yoko:我認為贏家將是那些在基礎(chǔ)模型之上進行定制和優(yōu)化的專家,而不是基礎(chǔ)模型本身。比如我在過去兩周一直在用 GPT-4o 的圖像模型生成漫畫風(fēng)格圖片。它在吉卜力風(fēng)和日本漫畫方面表現(xiàn)很好,但也就只會幾種風(fēng)格。藝術(shù)界喜歡的是“分布之外”的作品,大家都想看到不一樣的東西。印象派剛出現(xiàn)時,其他畫家都說:“你的眼睛有問題嗎?為什么要畫模糊的畫?”風(fēng)格在變,但正因為如此,推動分布的責(zé)任在于人類和新一代專家,他們要用新的數(shù)據(jù)、新的工作流、新的美學(xué)來拓展邊界。

Guido:沒錯,基礎(chǔ)模型永遠不可能覆蓋全部需求。

當(dāng)然,歸根結(jié)底,智能體的實用性取決于它們能訪問的工具和數(shù)據(jù)。如果主要的網(wǎng)絡(luò)平臺決定限制智能體訪問數(shù)據(jù),會發(fā)生什么?

Guido:目前智能體面臨的一大難題是數(shù)據(jù)壁壘。有些是因為技術(shù)限制,比如你想訪問某個數(shù)據(jù),但系統(tǒng)難以集成。有些則是人為設(shè)置的壁壘,比如 iPhone 的照片數(shù)據(jù)沒有開放 API,因為它是一個封閉生態(tài)系統(tǒng)。

Matt:也就是數(shù)據(jù)孤島。

Guido:是的。這會不會阻礙智能體的發(fā)展?或者說,消費者公司往往不愿意提供對其服務(wù)的自動化訪問,因為他們想要用戶的注意力,以便投放廣告。這是否會限制智能體的部署?

Yoko:如果未來瀏覽器原生支持智能體,可以直接瀏覽網(wǎng)頁,情況會不會改變?

Guido:這是個好問題,是的。

Matt:Yoko 說得對。掌握數(shù)據(jù)的人往往有強烈的動機保留數(shù)據(jù),因為他們害怕 AI 會對他們造成影響。他們緊緊抓住手頭的資產(chǎn)。這些問題很少能通過制定新協(xié)議來解決。但總有人會想辦法說:“如果你的數(shù)據(jù)是公開可見的,我們就要獲取它。”畢竟,那數(shù)據(jù)本來就不是你的,而是關(guān)于我的數(shù)據(jù),憑什么你來保管?

Yoko:我也覺得模型的新進展可能會打破數(shù)據(jù)壁壘。目前智能體瀏覽網(wǎng)頁的效果很差,速度慢、體驗差,需要多次嘗試才能完成一個任務(wù)。但想象一下,如果基礎(chǔ)模型具備這樣的能力:智能體可以登錄任意網(wǎng)站,像人類一樣操作,或者 SSH 登錄服務(wù)器執(zhí)行命令,甚至為移動設(shè)備啟動虛擬機、訪問設(shè)備農(nóng)場來玩 Pokémon GO。那原本只能由人類訪問的數(shù)據(jù),可能也將對智能體開放。

Guido:也有可能出現(xiàn)相反的趨勢:很多消費級網(wǎng)站正在采用越來越高級的驗證碼技術(shù),來阻止 AI 智能體的自動化訪問。防止智能體訪問,因為它們只想吸引人類注意力。我最近試用了一個深度研究工具,它用的是某個主流 LLM。其中一個步驟就是繞過某個網(wǎng)站的驗證碼機制。它甚至知道自己想要的信息被阻擋了,還進行了推理。這未免有點太反烏托邦了吧?

Matt:它成功了嗎?

Guido:成功了。

Matt:這真是個很有趣的例子。還記得 Gmail 剛引入廣告時的爭議嗎?當(dāng)時他們說:“我們不會讀你的郵件,但我們的算法會讀,并據(jù)此推薦廣告。”我們后來慢慢接受了這個事實。但有些數(shù)據(jù)持有者反應(yīng)強烈,比如亞馬遜后來改發(fā)確認郵件時不再附帶訂單詳情,而是讓用戶點擊鏈接查看。這說明數(shù)據(jù)持有者確實找到了方法來限制數(shù)據(jù)的外泄?,F(xiàn)在這種情況還會發(fā)生嗎?

Yoko:但同樣的數(shù)據(jù)可能還是能通過客戶端安裝的廣告網(wǎng)絡(luò)爬取到。

Matt:沒錯,總有其他途徑,雖然可能不是完全一樣的數(shù)據(jù),但已經(jīng)足夠接近了。

Guido:也許未來我們很難區(qū)分一個 LLM 和一個人類之間的行為,這可能改變游戲規(guī)則。

最后,Guido、Matt 和 Yoko 回答了一個顯而易見的問題:在我們能看到的最長時間范圍內(nèi),為了讓智能體成為一個真正具有變革性的創(chuàng)新,我們需要實現(xiàn)哪些目標?

Guido:我的樂觀設(shè)想是,在兩年內(nèi),我們能讓智能體代表我使用我所能訪問的幾乎所有工具。當(dāng)然我們也清楚,目前還有幾個關(guān)鍵技術(shù)尚未突破:智能體的安全性、身份驗證、訪問控制、數(shù)據(jù)保留機制、以及如何應(yīng)對那些試圖阻止智能體訪問的消費類網(wǎng)站。如果解決了這些問題,智能體將極大地簡化許多任務(wù)。比如我現(xiàn)在 Google Drive 上的數(shù)據(jù),如果智能體能自動理解和處理這些數(shù)據(jù),而不是分散在多個碎片化的來源中,那將會大大提高效率。這就是我對智能體未來的積極預(yù)期:它能代表你訪問所有你能訪問的數(shù)據(jù),并為你執(zhí)行任務(wù),節(jié)省大量時間,讓你的生產(chǎn)力提升數(shù)倍。

Yoko:我的看法略有不同。我認為關(guān)鍵在于基礎(chǔ)模型的多模態(tài)能力。目前它還是以文本為主,這對編碼和文本任務(wù)非常有效。但對于視覺優(yōu)先的任務(wù),還沒有一對一的映射。即使是瀏覽網(wǎng)頁,現(xiàn)在也只能通過每幾秒截圖再傳給模型的方式,體驗非常糟糕。所以我看好多模態(tài)模型的發(fā)展。如果我們能訓(xùn)練模型學(xué)習(xí)點擊網(wǎng)頁按鈕、瀏覽網(wǎng)頁、使用設(shè)備、繪圖、制作矢量圖等多種行為,那么智能體將解鎖前所未有的能力。

Matt:你們大概猜得到我的答案。如果兩年或五年后我們不再使用“智能體”這個詞,那將是一個巨大的勝利。哥倫比亞大學(xué)的一些研究人員發(fā)表了一篇有趣的論文,叫做《AI as Normal Technology》,他們指出,社會對 AI 的認知存在一個錯誤的二元對立:要么 AI 帶來烏托邦,要么帶來末日。但實際上,我們應(yīng)該把它當(dāng)作像水、電、互聯(lián)網(wǎng)一樣的正常技術(shù)來看待。智能體只是幫助我們實現(xiàn)這一目標的一種方式。我認為這才是我們前進的方向。這些技術(shù)非常強大,我們已經(jīng)知道如何使用它,也了解它的應(yīng)用場景。接下來就是如何讓它為我們所用。

掃碼關(guān)注我們

相關(guān)推薦