☰

谷歌發佈新一代大模型Gemini 2.0，備戰智能體時代

經濟觀察網陳奇傑任曉寧/文 12月12日，谷歌推出大模型Gemini 2.0 ，谷歌CEO桑達爾·皮查伊（Sundar Pichai）稱，這是谷歌爲新智能體時代構建的下一代模型，也是谷歌迄今爲止最強的大模型。

Gemini 2.0 Flash是谷歌此次發佈的Gemini 2.0系列模型中的第一個模型。相比上一代模型Gemini 1.5 Flash，Gemini 2.0 Flash除了支持圖片、視頻和音頻等多模態輸入，還支持多模態輸出，例如其可以直接生成圖像與文本混合的內容，以及原生生成可控的多語言文本轉語音（TTS）音頻。Gemini 2.0 Flash還可以原生調用谷歌搜索、代碼執行以及第三方用戶定義的函數等工具。

皮查伊表示，如果說Gemini 1.0的作用是整合和理解信息，那麼Gemini 2.0能夠做到讓信息更加有用。

基於Gemini 2.0模型，谷歌能夠構建新的AI智能體，從而離構建通用助手的願景更進一步。智能體（Agent）是指能夠感知環境並採取行動以實現特定目標的代理體，也被視爲大模型落地的“最後一公里”。

過去一年裡，谷歌持續開發了更多智能體模型。在發佈Gemini 2.0的同時，谷歌也介紹了多個智能體。例如，Project Astra是通過多模態理解現實世界的智能體，它可以在多種語言和混合語言之間進行對話，能夠理解不同口音和生僻單詞，並以接近人類對話的延遲來理解語言。Project Astra最多可以記住長達10分鐘的會話內容，並且可以回憶起過去與它進行的多輪對話，以便爲用戶提供更好的個性化服務。Project Astra還能使用谷歌搜索、谷歌地圖等工具。 Project Astra被應用於谷歌的AI助手Gemini app以及智能眼鏡等其他設備及產品中。

除此之外，谷歌還開發了可以幫助用戶完成複雜任務的智能體、面向開發者的智能體，以及面向遊戲和其他領域的智能體。

在Gemini 2.0發佈當天，新加坡科研局資深科研工程師黃佳就體驗了該模型，並將其與OpenAI最新發布的o1模型進行對比。他的測試方式是提供一系列參考文檔，給出複雜邏輯，讓大模型進行自主編程，並提供詳細文案解釋。

黃佳表示，在一般情況下，ChatGPT o1的邏輯推理還是更強。具體而言，兩個模型都體現出了很強的分析推理能力，但ChatGPT o1可以接受的文檔輸入長度較長，Gemini 2.0會截斷部分太長的參考文檔；此外，ChatGPT o1給出的代碼，質量較高，缺陷（bug）較少，ChatGPT o1的代碼解釋更詳盡，更接近黃佳想要的寫作風格，Gemini 2.0的解釋文案較爲簡略。

黃佳感覺到，雖然目前大模型仍不可能僅靠簡單的提示詞，就自主幹活，滿足需求，還需要在人的驅動之下，在精準的業務場景中，經過設計、編程、整合等過程，才能夠成爲智能體，但是大模型能力在進步，人們對大模型能力邊界的認識也越來越清晰，這帶來了智能體發展的加速，周圍同事也在更多地用智能體做實際項目。

陳奇傑經濟觀察報記者

TMT新聞部記者長期關注並報道TMT（科技、遊戲等）領域重大事件，擅長人物專訪、行業分析報道。郵箱：chenqijie@eeo.com.cn 微信號：Q1191278317

谷歌發佈新一代大模型Gemini 2.0，備戰智能體時代

相關資訊