世界首個1000億AI智能體文明誕生!北大校友打造真實版「西部世界」,技術細節全公開

新智元報道

編輯:桃子 十二

【新智元導讀】人類世界的一切日常活動,都在《我的世界》中被1:1復刻了。1000億AI智能體構成的文明,竟是這樣的。

世界首個「AI智能體文明」,終於揭秘了!

2個月前,1000+多個智能體在虛擬世界中,一同協作構建起自己的經濟、文化、宗教和政府......

網友紛紛驚呼,堪稱現實版「西部世界」。

如今,這個文明再次進化了,1000億AI智能體文明的世界又是怎樣的?

它們是一個個體,也是一個羣體。

人類日常生活中的一切活動,都將在「我的世界」中實現1:1復刻。

‍這位北大校友Robert Yang分享了團隊最新的研究,首次對外介紹了背後PIANO全新的「認知架構」。

PIANO(並行信息聚合神經協調),是一個能讓AI智能體實現多方互動的架構,同時在多個輸出流中保持連貫性。

項目地址:https://github.com/altera-al/project-sid

AI智能體如何能夠同時思考和行動,在多個時間尺度上,以有意識和潛意識的方式運作?

好比鋼琴的琴鍵,代表着不同的大腦模塊。當它們一起演奏時,可以產生優美的和絃。而在智能體中,同樣產生了類人的特質。

這些智能體,會構築了一個「文明」。納稅、貿易、政府、國家、宗教....,一切人類世界所有的日常,AI智能體也有。‍

而且,AI智能體還能夠準確推斷他人的情感,建立友誼,甚至會樹敵的關係。一些內向的智能體,與「社恐」的人類一樣,比外向智能體有着更少的社交聯繫。

有網友表示,我們生活在模擬矩陣中,未來就是現在。

接下來,一起看看AI智能體的「世界」,是怎樣的全貌?

爲什麼需要AI智能體文明?

爲了讓AI智能體能夠與人類共存並融入我們的社會,它們不僅需要具備自主性,還需要具備協作能力。

近年來,大型語言模型(LLM)在推理和決策方面的進步顯著增強了智能體的自主性。

然而,僅僅擁有自主性是不夠的。智能體還必須在人類文明中與人類和其他智能體共存。

正如論文作者所言:

但構建AI文明,並非易事。

首先,基於LLM的智能體通常難以在行動和推理中保持現實感。

即使配備了用於規劃和反思的模塊,智能體也常常陷入重複的行爲模式或通過幻覺積累錯誤,導致無法取得有意義的進展。

其次,錯誤傳達思想和意圖的智能體會誤導其他智能體,導致進一步的幻覺和循環。這種溝通不暢經常發生在智能體羣體中,會導致功能失調行爲,並會惡化羣體中的個人表現。

最後,目前對智能體的基準測試主要集中在自主智能體在各種領域的表現,如網絡搜索、編程、搜索和查詢以及推理。

那麼,構建AI智能體的最優解是什麼?

全新PIANO架構

爲了解決現有問題,全新的PIANO架構應運而生。

PIANO架構是一個綜合性的、高度靈活的智能體設計框架。

其中,P代表感知模塊,I代表智能核心,A則是行動模塊。PIANO架構最顯著的特點之一便是允許智能體同時思考和行動。

這一特性打破了傳統架構中可能存在的行動與思考相互制約的侷限。

在複雜多變的環境中,智能體面臨着各種各樣的情況,其中既包括需要快速應對的即時威脅,也有需要深思熟慮的長期規劃。

在行爲連貫性方面,引入認知控制器(CC)模塊。

認知控制器(CC)模塊則像是智能體的 「大腦中樞」,負責進行高級決策——通過接收和綜合各個模塊的信息,認知控制器將這些信息轉化爲一個統一的、協調的決策,並將其進一步轉換爲每個電機模塊中的適當輸出。

保證了各個模塊之間的和諧協作,避免了因不同模塊各自爲政而產生的不一致問題。

基於上述兩個架構原則,PIANO架構系統由10個併發運行的不同模塊組成,其核心模塊包括:

-記憶:

記憶模塊堪稱智能體的「智慧寶庫」,無論是簡短的日常問候、深入的技術討論,還是充滿情感的交流,每一個字詞、每一個語調變化都被精確存儲。

除此之外,智能體不僅能記住每個步驟的描述,甚至還能記住對話中的提問、回答的順序以及雙方強調的重點內容。

-行動意識:

它就像一個全面的體檢系統。智能體通過這個模塊可以精確掌握自己的能量儲備情況,知道剩餘電量還能支持多長時間的運行,或者燃料儲備是否足夠完成下一個階段的任務。

同時,它能對各個部件進行實時監測,比如檢測傳感器是否正常工作、機械關節的靈活程度、數據處理單元的運算速度等。任何一個微小的異常都逃不過它的 「眼睛」。

-目標生成:

它基於智能體豐富的經驗和與環境的深度交互,不斷孕育出新的目標,推動智能體向前發展。

例如,在一個多智能體合作的物流場景中,智能體發現貨物運輸過程中某個區域經常出現擁堵(環境交互),而之前它有過參與優化運輸路線的經驗(過往經驗),那麼目標生成模塊可能會生成一個新的目標:與其他智能體協作,設計一種新的避開擁堵區域的運輸路線方案。

這種目標生成機制賦予了智能體主動探索和創新的能力,使其不僅僅是被動地執行預設任務,並且能夠根據實際情況積極拓展自己的行動領域。

-社交意識:

它爲智能體開啓了理解和融入羣體的大門。

簡單理解,它能夠對特定的動作信息做出快速反應。

比如一個簡單的手勢(舉起手臂可能表示請求幫助或者引起注意)、特定的身體姿態(微微前傾可能表示友好和關注),社交意識模塊能夠準確識別並理解其含義。

當然,如果識別到其他智能體的求助信號,它可以根據自身能力和當前任務情況決定是否提供幫助。

-對話:

對話模塊是智能體的「語言中樞」,是其與外界進行有效溝通的關鍵所在。

對話模塊擁有強大的語法分析和語義理解能力。對於接收到的各種類型的語言輸入,無論是簡潔明瞭的指令、富有情感的表達還是複雜抽象的概念描述,它都能準確解析。

並且,對於模糊不清或者有歧義的語言,它也能通過上下文和語言習慣進行合理推斷。

在生成語言方面,對話模塊能夠根據智能體的內部狀態和意圖,準確地表達自己的想法。

-技能執行:

技能執行模塊是智能體與外界環境交互的直接執行者。當智能體需要在環境中執行特定技能或行動時,技能執行模塊會有條不紊地協調各個相關部分。

單智能體—多智能體進化

以《我的世界》爲例,研究人員選取了1000種物品的能力進行評估,試圖觀察和衡量智能文明體的進步。

單智能體

首先,通過智能體在《我的世界》裡獲取物品的情況來評估它的性能。

研究人員設置了25個智能體,一開始它們的揹包都是空的,而且它們出生的地方離得很遠,互相沒辦法交流,這些智能體都被設定成以探索和收集物品爲目標的 「探險家」。

它們在不同的地方出生,像地表、洞穴、森林或者其他不同的環境。不同的出生點意味着它們能拿到的資源不一樣,完成收集物品這個目標的難度也不同。

比如在資源多的地表出生的智能體,周圍可能有很多木材、石頭這些基礎材料,能方便地做初級工具;但在洞穴裡出生的智能體,雖然可能有很多礦物,但有黑暗、怪物這些危險,而且得往外探索才能拿到更多種類的東西。

研究人員發現用完整PIANO架構的智能體玩了30分鐘後,平均能拿到17種不同的物品。不過,它們的表現差別很大,這主要是因爲出生位置不同。

有些智能體只能拿到不到5種物品,而表現最好的智能體能拿到30-40種,這和有一定《我的世界》經驗的人類玩家差不多了。

那麼,單個智能體發展的上限是多少呢?

研究人員發現,在同樣條件下增加智能體數量到49個,讓它們玩4個小時。經過多次試驗,發現所有智能體收集的不同物品數量穩定在《我的世界》所有物品的三分之一(大概320種)。

多智能體

多智能體顧名思義即多個智能體組成的羣體,他們在同一環境裡可以互相交流或競爭。

小羣體:

要讓智能體在羣體裡能合作並發展,它們得能理解其他智能體的行動和想法,這種既能理解自己又能理解別人的能力,能讓智能體在社交環境里根據情況調整自己的行爲。

比如和盟友合作的時候建立信任,和對手相處的時候應對競爭和衝突。研究人員通過實驗發現,智能體不僅具有社交能力,並且可以在多達50個智能體的大規模模擬中形成有意義的社會關係。

研究人員主要通過兩組實驗對智能體在羣體中的角色和意識進行了研究。

-有社交意識的智能體能否通過聊天來推斷別人的情緒呢?

在《我的世界》中的3個角色和智能體的聊天實驗中,可以看到,當遊戲中的角色表達喜愛-生氣-喜愛等情緒變化時,智能體完全能夠理解這些情緒變化並做出相應的反應。

-智能體是否能感知情緒並做出相應行動?

在另一個實驗裡,通過遊戲中的角色對同一智能體的喜歡或討厭程度來推斷智能體的行爲,研究人員發現,智能體不僅準確推斷遊戲角色的意圖,並且在決策時通過意圖做出自己的行動。

社會:

隨後,研究人員將50個智能體放在隨機生成的《我的世界》地圖裡,並賦予每個智能體獨特的個性,它們可以在這個世界裡隨意行動,也可以隨意和其他智能體交流。

在這種自由的場景下,研究人員發現智能體不僅能準確判斷其他智能體的角色,而且參與判斷的智能體越多、它們交流時間越長,判斷就越準確。

此外,在這個實驗中,研究人員也發現了幾個重要的現象:

-社交模塊的重要性:

如果把社交模塊去掉,這時候智能體之間的關係就比較平淡了,這說明社交模塊對長期關係的發展(不管是好的還是不好的方向)都很重要。

-個性對社交網絡的影響:

研究人員發現,根據個性不同,有些智能體的社交連接模式不一樣。

比如內向的智能體明顯比外向的社交智能體收到的聯繫少,這說明個性在大型複雜社交網絡裡也能體現出來。

並且,雖然大多數時候情緒是相互的,但也不總是這樣。一個智能體可能對另一個不理它的智能體有好感,這和現實世界裡人際關係複雜、不總是相互的情況一樣。

文明誕生了

經過單智能體,到多智能體的進化,接下來,就是文明的誕生了。

爲了評估智能體的文明進步能力,研究人員評估了它們在幾種情況下的行爲方式:

- 智能體在集體規則下的行爲(重點關注稅法的遵守和修訂)

- 通過meme自發生成,和單一宗教結構化傳播來探索文化傳播

各司其職,專業分工

正是人類的專業化分工推動了文明進步,促進了農業、治理、文化和技術的進步。爲了複製這些新興的文明品質,智能體也應當具備這些品質。

爲此,作者提出了智能體專業化的三個基本標準:

首先,在角色選擇和轉換方面,擁有自主性。其次,它們的專業化應該通過互動和經驗來體現,沒有明確的方向和限制。最後,它們選擇的角色,應該體現在與其專業相一致的行爲中。

如下圖所示,研究人員把智能體放在一個村子中,它們會自行發展出不同的職業,比如農民、工程師。

移除社會意識,導致了智能體選擇更多的同質角色,這些角色不會隨着時間推移而持續下去。

以下是30個智能體在一個村子中,行爲的模擬分佈。

遵守稅法,修改法律

AI智能體可以制定和修改自己的法律嗎。

接下來,研究人員通過實施稅收制度來測試了智能體。結果發現,它們不僅遵守稅法,還會根據公衆情緒民主投票修改稅率。

宗教傳播,鄉鎮不同

最後,AI智能體可以發展出自己的文化嗎?

研究人員具體觀察了meme的有機傳播,並追蹤了智能體如何形成一個虛構的宗教,並通過智能體協會傳播。

更有意思的是,農村地區與城鎮呈現出不同的文化模式。

北大校友創業,打造有同理心AI

之所以開展Project Sid這個項目,是因爲Altera AI團隊希望,通過探索這些問題,最終讓數字人無縫整合到人類社會中。

Robert Yang是Altera的聯合創始人兼CEO。

此前,他分別在紐約大學和耶魯大學獲得計算神經科學博士學位,在北大獲得物理學學士學位。

他曾是MIT腦與認知科學系和電子工程與計算機科學系教授,以及MIT MetaConscious小組負責人。

2023年,他關閉了實驗室並離開了麻省理工學院的終身教職,創立了Altera。

Altera的團隊雖小,但人才密度極高——

由來自麻省理工學院電子工程與計算機科學系、斯坦福自然語言處理小組、Google X、Citadel、Supercell等的計算神經科學家、物理奧林匹克選手和工程師組成。

這家成立半年多的公司,年初得到了200萬美金的種子融資,由Andreessen Horowitz領投。

三個月後,又再次融資900萬美元,由谷歌前CEO埃裡克·施密特的First Spark Ventures、Patron VC、天使投資人Mitch Lasky等人領投。

今年5月,Altera在Menlo Park設立了分店,並致力於成爲首家智能體消費產品的供應商。

參考資料:

https://x.com/GuangyuRobert/status/1852397383939960926