谷歌最強大模型登場!掀Agent風暴,放AI芯片大招,深夜突襲OpenAI

智東西作者 ZeR0 程茜編輯 漠影

OpenAI的12天“聖誕大禮包”還沒熄火,谷歌突然“插隊”放出年末大招!

智東西12月12日報道,今日,谷歌重磅發佈其迄今最強大的AI大模型Gemini 2.0,新功能包括原生圖像生成和音頻輸出的多模態輸出,並支持原生調用谷歌搜索、地圖、Lens等工具。

其第一款新模型是Gemini 2.0 Flash的實驗版本,速度是1.5 Pro的兩倍。谷歌稱,這款新模型專爲AI Agent時代而設計,主打多模態+AI Agent。

基於Gemini 2.0 Flash,谷歌推出一大波AI Agent新品,包括今年5月轟動業界的通用AI助手原型Project Astra,還有能夠作爲實驗性擴展在谷歌瀏覽器中完成多步驟複雜任務的Project Mariner,以及實驗性AI編程Agent Jules、遊戲Agent。

Gemini 2.0的發佈,打響了邁向AI Agent新世界的關鍵一槍。

‌谷歌CEO桑達爾·皮查伊(Sundar Pichai)說:“如果說Gemini 1.0是關於組織和理解信息,那麼Gemini 2.0是關於使其更加有用。”這也是其專注於AI Agent、多模態輸出的原因所在。

Gemini和Gemini Advanced用戶可在桌面端的模型下拉菜單中選擇聊天優化版Gemini 2.0來試用。開發人員可通過Google AI Studio和Vertex AI在Gemini API中開始使用此模型進行構建。

本週,谷歌開始在搜索的AI概覽中測試Gemini 2.0。1月份,Gemini 2.0 Flash將全面上市,同時將推出更多模型尺寸。明年年初,谷歌會將Gemini 2.0擴展到更多谷歌產品中。

Gemini 2.0背後的核心硬件也正式揭曉——Trillium TPU。

谷歌宣佈其最強AI芯片Trillium TPU普遍可用,還詳細介紹了谷歌雲AI超級計算機架構,包括可集成超過100,000顆Trillium芯片的Jupiter網絡。Trillium不僅在訓練密集型大語言模型、MoE模型上性能更強,而且AI訓練和推理性價比更高。亞洲AI大模型獨角獸AI21 Labs已使用Trillium來開發語言模型。

此外,谷歌發佈了一款名爲Deep Research(深度研究)的全新AI工具。該工具擅長做研究工作,相當於一位AI研究生,幫你只用幾分鐘就能完成原本需要數小時的研究。

用戶輸入問題後,它會創建一個多步驟研究計劃,在用戶修改及批准後開始調用Gemini機器人深入分析來自網上的相關信息,並根據其關鍵發現生成一份詳細的綜合報告,並列上信息來源鏈接。用戶可以要求Gemini擴展某些領域或調整報告,並將AI生成的研究導出到谷歌文檔。

該工具當前僅向Gemini Advanced訂閱者提供英文版,並將於明年年初在移動App中提供。

一、Gemini 2.0首款模型發佈!多模態輸出、原生調用工具、四大Agent

谷歌的官方博客顯示,Gemini 2.0 Flash在關鍵基準測試中的速度是1.5 Pro的兩倍。

除了支持圖像、視頻和音頻等多模式輸入外,Gemini 2.0 Flash現在還支持多模態輸出,例如與文本混合的原生生成的圖像和可操縱的文本轉語音(TTS)多語言音頻,還可以原生調用谷歌搜索、代碼執行以及第三方用戶定義函數等工具。

爲了幫助開發人員構建動態和交互式應用程序,在此基礎上,谷歌還發布了具有實時音頻、視頻流輸入以及使用多個組合工具的能力的Multimodal Live API。

在AI Agent方面,谷歌宣佈了對實驗性功能的更新,包括通用AI Agent Project Astra、多步驟任務AI Agent Project Mariner、AI編程Agent Jules、遊戲Agent。

1、通用AI Agent Project Astra:記住10分鐘視頻,更強agent能力

還記得谷歌今年5月展示的通用AI助手研究原型Project Astra嗎?

這是一個全視、全聽和全記憶的實驗性AI助手,展示了通用AI助手的未來功能。你通過安卓App或原型眼鏡來記錄看到的世界,AI助手可以實時處理文本、圖像、視頻、音頻,分析它所看到的內容並回答廣泛的問題,還精通多國語言。

由Gemini 2.0提供支持的Project Astra更新版本,可以實現Agent(代理)能力。其最新改進包括:

谷歌正在擴大Project Astra的測試範疇,將新的反饋納入更新中,包括優化其對各種口音及不常見單詞的理解、減少延遲、將其集成到一些谷歌產品(如搜索、Lens、地圖等)。

*後文有更詳細的功能演示。

2、多步驟任務AI Agent Project Mariner:最佳工作結果83.5%,爲保證安全目前需人類介入‌

Project Mariner‌是谷歌在Gemini 2.0模型基礎上發佈的一個實驗性功能,‌其可以完成多步驟的複雜任務。

作爲研究原型,Project Mariner‌能夠理解和推理瀏覽器屏幕上的信息,包括像素和文本、編程、圖像和表單等網絡元素,然後通過實驗性的谷歌擴展程序使用這些信息完成任務。

谷歌官方博客顯示,根據WebVoyager基準進行評估,該基準測試Agent在端到端真實世界網絡任務上的性能,Project Mariner作爲單一Agent設置實現了83.5%的最佳工作結果。

‌在演示中,Project Mariner可以同時完成獲取表單、找到公司官網、聯繫方式等多步驟任務,Agent會自動執行在谷歌搜索中查找電子郵件的過程,且這一過程中用戶可以隨時點擊暫停和停止。同時,用戶可以看到Agent每一步行動的推理步驟和計劃。

儘管目前‌Project Mariner執行任務時較慢且並不總是準確,但從技術上講,這表明了在瀏覽器中導航已經成爲可能。

目前,該代理在完成任務時需要人類介入,如Project Mariner只能在瀏覽器的活動選項卡中鍵入、滾動或點擊,並且它會在用戶執行某些購買等敏感操作之前要求用戶進行最終確認。

3、AI編程Agent Jules:直接集成GitHub,長期目標是構建通用Agent

谷歌還在探索Agent Jules的更新。Jules是一種直接集成到GitHub工作流程中的實驗性AI驅動的編程Agent。

Jules可以解決問題、制定計劃並執行它,所有過程都在開發人員的指導和監督下進行。在這一領域,谷歌的長期目標是構建在所有領域(包括編程)都有幫助的AI Agent。

4、遊戲Agent:視頻遊戲導航,根據遊戲動作推理、實時對話充當遊戲交流

谷歌使用Gemini 2.0構建了遊戲Agent,可以幫助用戶在視頻遊戲的虛擬世界中導航。Agent可以僅根據屏幕上的動作來推理遊戲,並在實時對話中提供下一步操作的建議。

目前,研究人員在與Supercell等遊戲開發商合作,探索這些Agent從《部落衝突》等策略遊戲到《Hay Day》等農業模擬器,在各種遊戲中解釋規則和挑戰的能力。

未來,谷歌還在試驗可以通過將Gemini 2.0的空間推理功能應用於機器人技術來在物理世界中提供幫助的Agent。

三、通用AI助手原型升級!能存儲10分鐘視頻,開啓Agent時代

谷歌發佈了由Gemini 2.0提供支持的Project Astra更新版本的新演示視頻。

測試者拿着安裝了最新測試版Project Astra的Pixel手機,在倫敦附近遛彎並進行測試。比如收到包含公寓信息的電子郵件,你可以讓AI助手告訴你門的密碼,並記住它。洗衣服時,把衣服標籤、機器圖標拍給AI助手,它會告訴測試者正確的洗衣服方式。

測試者把推薦列表拍給AI助手,它能搜索列表中的地點,給出相應的信息。

當測試者走在街道上,掃過食物、雕塑或花卉,AI助手都能爲詢問作出解答。

測試者還把朋友在讀的書發給AI助手,讓它推薦符合朋友喜好的禮物,並討論朋友可能感興趣的點。

當偶遇一輛公交車,測試者問AI助手“那輛公交車能帶我去唐人街附近嗎?”AI助手會回覆說:“是的,24路公交車經過萊斯特廣場,離唐人街很近。”測試者繼續追問路上有什麼路標,AI助手也作出流利地回覆:“你可能遇到的著名地標是威斯敏斯特大教堂、大本鐘和特拉法加廣場。”

除了使用手機外,測試者也戴上原型眼鏡來使用Project Astra,並提出讓它查看天氣預報、詢問旁邊的公園是什麼、查詢能否騎自行車進入、這條路是否有超市等問題。

目前該AI助手仍有很多侷限性,比如無法訪問個人的電子郵件或照片,在嘈雜的環境中難以區分多個聲音,並且無法執行設置計時器等操作任務等。

Project Astra產品經理Bibo Xu說:“它正在融合我們這個時代一些最強大的信息檢索系統。”

四、基於AI Agent,探索保護用戶敏感信息、遵循用戶指令策略

在安全方面,谷歌在對多個實驗原型進行研究的基礎上,正通過迭代實施安全培訓、與測試人員和外部專家合作,進行廣泛的風險評估以及安全和保證評估。

全新Gemini 2.0由谷歌今年發佈的Trillium TPU訓練而成。Trillium是谷歌第六代TPU,也是迄今性能最高的TPU。

其相比上一代芯片的優化包括:超過4倍的訓練性能,高達3倍的推理吞吐量,能效提高67%,每顆芯片峰值計算性能提高4.7倍,HBM容量翻倍,單個Jupiter網絡有10萬顆TPU,高至2.5倍的每美元訓練性能、1.4倍的每美元推理性能。

今日,谷歌宣佈如今Trillium TPU面向谷歌雲客戶普遍可用。

Trillium TPU是谷歌雲AI超級計算機的關鍵組成部分,其架構採用了性能優化的硬件、開放的軟件、領先的機器學習框架和靈活的消費級模型的集成系統。谷歌還對開放軟件層進行了增強,包括對XLA編譯器和流行框架的優化,以在AI訓練、調優和服務方面實現大規模的領先性價比。

此外,使用大量主機DRAM(補充HBM)進行主機卸載等功能,提供了更高的效率。

每個Jupiter網絡結構超過100,000顆Trillium芯片,具有13Pbps的對分帶寬,能夠將單個分佈式訓練任務擴展到數十萬個加速器。

以色列AI大模型獨角獸AI21 Labs已使用Trillium來加速開發下一代複雜語言模型。

1、擴展AI訓練工作負載

Trillium通過部署12個包含3072顆芯片的pod實現了99%的擴展效率,並在24個包含6144顆芯片的pod中展示了94%的擴展效率,以預訓練gpt3-175b。

谷歌使用4片的Trillium-256芯片作爲基準,使用1片的Trillium-256芯片作爲基準,當擴展到24個pod時,仍可獲得超過90%的擴展效率。

在訓練Llama-2-70B模型時,測試表明,Trillium以99%的擴展效率實現了從4片Trillium-256芯片pod到36片Trillium-256芯片pod的近線性擴展。

2、訓練密集型和MoE大模型

與前幾代產品相比,Trillium TPU具有更好的擴展效率。下圖表中,其測試展示了與同等規模的Cloud TPU v5p集羣相比,Trillium在12 pod規模下的99%擴展效率(總峰值FLOPS)。

與上一代雲TPU v5e相比,Trillium爲密集大語言模型(如Llama-2-70b和gpt3-175b)提供高達4倍的訓練速度,爲MoE模型提供了比上一代雲TPU v5e快3.8倍的訓練。

與Cloud TPU v5e相比,Trillium TPU提供了3倍的DRAM。在訓練Llama-3.1-405B模型時,根據模型FLOPs利用率(MFU)測量,Trillium的主機卸載功能可將性能提高50%以上。

3、優化推理性能和收集調度

Trillium也爲圖像擴散模型和密集大語言模型提供了最佳的TPU推理性能。其測試表明,與Cloud TPU v5e相比,Stable Diffusion XL的相對推理吞吐量(每秒圖像)提高了3倍以上,Llama2-70B的相對推理吞吐量(每秒token)提高了近2倍。

Trillium是谷歌在離線和服務器推理用例中性能最高的TPU。下圖顯示,與Cloud TPU v5e相比,Stable Diffusion XL的離線推理相對吞吐量(每秒圖像數)提高了3.1倍,服務器推理相對吞吐量提高了2.9倍。

除了更好的性能,Trillium還引入了一個新的集合調度功能。這個特性允許谷歌的調度系統做出智能的作業調度決策,從而在一個集合中有多個副本時提高推理工作負載的總體可用性和效率。

它提供了一種管理運行單主機或多主機推理工作負載的多個TPU片的方法,包括通過谷歌Kubernetes Engine(GKE)。將這些片分組到一個集合中,可以很容易地調整副本的數量以滿足需求。

4、提高嵌入密集型模型性能

第三代數據流處理器SparseCore更擅長加速動態和數據依賴操作。引入第三代SparseCore的Trillium將嵌入密集型模型的性能提高了2倍,將DLRM DCNv2的性能提高了5倍。

5、提高訓練和推理性價比

Trillium還旨在優化每美元的性能。迄今爲止,在訓練密集大語言模型(如Llama2-70b和Llama3.1-405b)中,Trillium的每美元性能比Cloud TPU v5e提高了2.1倍,比Cloud TPU v5p提高了2.5倍。

在Trillium上生成1000張圖像的成本比離線推理的Cloud TPU v5e低27%,比在SDXL上進行服務器推理的Cloud TPU v5e低22%。

結語:大模型狂飆衝向Agent時代

通用人工智能(AGI)熱戰在年末愈演愈烈。從亞馬遜、OpenAI、Meta到谷歌,一系列重磅發佈將大模型的競爭格局推向了新的高潮。

其中谷歌是少有的同時在大模型、雲端基礎設施、端側智能方面同時佔據優勢的頭部大模型企業。

在如火如荼的大模型競賽中,執掌安卓操作系統的谷歌對端側智能理解距離最近、理解最深。通過今日的一系列發佈,谷歌進一步強化了Agent(代理)在智能手機、智能眼鏡等端側設備上的誘人前景。在更強大模型加持下,Agent將能夠更廣泛地爲人類代勞,幫人類瞭解周圍世界,提前進行多步驟思考,並在人類的監督下采取行動。

但AI系統仍具有相當多的不可控性。包括谷歌在內,大模型公司在將世界推向Agent時代的同時,必須竭力確保低風險,控制好安全的方向盤。