谷歌發佈新一代大模型Gemini 2.0,備戰智能體時代

經濟觀察網 陳奇傑 任曉寧/文 12月12日,谷歌推出大模型Gemini 2.0 ,谷歌CEO桑達爾·皮查伊(Sundar Pichai)稱,這是谷歌爲新智能體時代構建的下一代模型,也是谷歌迄今爲止最強的大模型。

Gemini 2.0 Flash是谷歌此次發佈的Gemini 2.0系列模型中的第一個模型。相比上一代模型Gemini 1.5 Flash,Gemini 2.0 Flash除了支持圖片、視頻和音頻等多模態輸入,還支持多模態輸出,例如其可以直接生成圖像與文本混合的內容,以及原生生成可控的多語言文本轉語音(TTS)音頻。Gemini 2.0 Flash還可以原生調用谷歌搜索、代碼執行以及第三方用戶定義的函數等工具。

皮查伊表示,如果說Gemini 1.0的作用是整合和理解信息,那麼Gemini 2.0能夠做到讓信息更加有用。

基於Gemini 2.0模型,谷歌能夠構建新的AI智能體,從而離構建通用助手的願景更進一步。智能體(Agent)是指能夠感知環境並採取行動以實現特定目標的代理體,也被視爲大模型落地的“最後一公里”。

過去一年裡,谷歌持續開發了更多智能體模型。在發佈Gemini 2.0的同時,谷歌也介紹了多個智能體。例如,Project Astra是通過多模態理解現實世界的智能體,它可以在多種語言和混合語言之間進行對話,能夠理解不同口音和生僻單詞,並以接近人類對話的延遲來理解語言。Project Astra最多可以記住長達10分鐘的會話內容,並且可以回憶起過去與它進行的多輪對話,以便爲用戶提供更好的個性化服務。Project Astra還能使用谷歌搜索、谷歌地圖等工具。 Project Astra被應用於谷歌的AI助手Gemini app以及智能眼鏡等其他設備及產品中。

除此之外,谷歌還開發了可以幫助用戶完成複雜任務的智能體、面向開發者的智能體,以及面向遊戲和其他領域的智能體。

在Gemini 2.0發佈當天,新加坡科研局資深科研工程師黃佳就體驗了該模型,並將其與OpenAI最新發布的o1模型進行對比。他的測試方式是提供一系列參考文檔,給出複雜邏輯,讓大模型進行自主編程,並提供詳細文案解釋。

黃佳表示,在一般情況下,ChatGPT o1的邏輯推理還是更強。具體而言,兩個模型都體現出了很強的分析推理能力,但ChatGPT o1可以接受的文檔輸入長度較長,Gemini 2.0會截斷部分太長的參考文檔;此外,ChatGPT o1給出的代碼,質量較高,缺陷(bug)較少,ChatGPT o1的代碼解釋更詳盡,更接近黃佳想要的寫作風格,Gemini 2.0的解釋文案較爲簡略。

黃佳感覺到,雖然目前大模型仍不可能僅靠簡單的提示詞,就自主幹活,滿足需求,還需要在人的驅動之下,在精準的業務場景中,經過設計、編程、整合等過程,才能夠成爲智能體,但是大模型能力在進步,人們對大模型能力邊界的認識也越來越清晰,這帶來了智能體發展的加速,周圍同事也在更多地用智能體做實際項目。

陳奇傑經濟觀察報記者

TMT新聞部記者長期關注並報道TMT(科技、遊戲等)領域重大事件,擅長人物專訪、行業分析報道。郵箱:chenqijie@eeo.com.cn 微信號:Q1191278317