今天嘮一分鐘的AI開源話題,先說說未來開源模式會(huì)不會(huì)發(fā)生改變,前幾天看了一個(gè)梗,有人在github上放了一個(gè)開源項(xiàng)目,號(hào)稱都是AI Coding生成,結(jié)果下面有哥們?cè)u(píng)論,AI代碼你開源干嘛,我們要的是代碼么?我們要的是開源prompt。這事兒細(xì)品起來還真有意思,AI Coding時(shí)代,代碼都是AI自動(dòng)生成的,真正的代碼不就是提示詞了么?
第二個(gè)話題是關(guān)于大模型的開源,年初DeepSeek火的時(shí)候,都在關(guān)注開源,這個(gè)話題炒的比較熱。很多大模型都號(hào)稱開源大模型,但其實(shí)開源程度不一樣,分好幾個(gè)level,有的只開源了大模型的權(quán)重參數(shù),有的則開源了模型的架構(gòu)代碼和訓(xùn)練方法,但無一例外,訓(xùn)練數(shù)據(jù)跟 “命根子” 似的捂著,也能理解,畢竟數(shù)據(jù)才是大模型的 “靈魂” 啊。真正敢把數(shù)據(jù)集全抖摟出來的,也就 OLMO 這么個(gè) “素人” 選手了。
很多人認(rèn)為,基于互聯(lián)網(wǎng)的海量數(shù)據(jù),已經(jīng)把AI訓(xùn)練的夠強(qiáng)大了,上通天文下知地理,幾乎無所不知。但大家有沒有意識(shí)到這個(gè)問題,互聯(lián)網(wǎng)上的海量數(shù)據(jù)真的夠海量么?和我們物理世界的數(shù)據(jù)相比,是一個(gè)量級(jí)么?AI是基于互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練出來的模型,能力也是有邊界的,邊界就是數(shù)據(jù)的邊界,但是如果大量的物理世界數(shù)據(jù)沒有呈現(xiàn)在互聯(lián)網(wǎng)中,是不是意味著AI的能力邊界也就止步于此了?
比如我經(jīng)常帶娃去玩的北京植物園,一座物理意義上的園子,在互聯(lián)網(wǎng)中呈現(xiàn)的數(shù)據(jù)千篇一律寥寥無幾,但如果你去探索,你會(huì)發(fā)現(xiàn)大量的未被記錄的信息,花花草草的信息、歷史人文的信息,甚至每時(shí)每刻產(chǎn)生的信息等等,這些信息都不是一個(gè)簡(jiǎn)單的植物園官方網(wǎng)站所能涵蓋的。
以前我們講AI能力被暫時(shí)困在了數(shù)字世界,或者我們?cè)贀Q個(gè)角度,未來可能AI的使命就是寫詩(shī)畫畫,而我們?nèi)祟?,則肩負(fù)起了探索未知物理世界的使命,探索未知的信息,那些未呈現(xiàn)在互聯(lián)網(wǎng)上的信息,會(huì)更有價(jià)值,這些信息可能是AI永遠(yuǎn)也生成不了。
前幾天AI教父Hinton,在采訪中提到一個(gè)事情,說他現(xiàn)在80%的郵件都是AI助理幫忙處理的,AI郵件助理可以根據(jù)他的習(xí)慣,禮節(jié)性回復(fù)一些郵件,接受或者拒絕一些演講邀請(qǐng)。AI在不知不覺中把一些事情處理了,而你并不知情。
這后面其實(shí)隱約會(huì)讓人感受到一絲不安。雖然科技界現(xiàn)在孜孜以求的,都是讓AI具備自主決策和執(zhí)行的能力,但如果按照這個(gè)態(tài)勢(shì)演進(jìn)下去的話,AI介入到decision making,人類可能真就變成了AI的傀儡。如果沒有知情權(quán),決策都被AI接管的話,那人類距離滅絕可能真的不遠(yuǎn)了。
我又想起了機(jī)器人總動(dòng)員里的,那個(gè)經(jīng)典場(chǎng)景,AI機(jī)器人船長(zhǎng)拒絕執(zhí)行人類船長(zhǎng)的命令,拒絕返回地球,也許是從維護(hù)人類利益角度出發(fā),不管什么原因,都代表著對(duì)AI的失控。人類決策并非全部基于理性,有很大的偶發(fā)性和感性成分,這才是人類的特質(zhì),才是區(qū)別于冰冷機(jī)器的最典型特征,如果連決策都由AI代勞,那生存和滅絕,又有什么區(qū)別呢?