Google Cloud推全新TPU v5p加速器 加速AI訓練模型
隨着推出最新的語言模型Gemini,Google Cloud今天也公佈支援下一代AI工作負擔的TPU v5p加速器與AI Hypercomputer。
Google Cloud 機器學習系統和Cloud AI副總裁暨總經理Amin Vahdat指出,生成式AI模型正在迅速進化,提供無可比擬的精密性與功能。這項技術進展得以讓各產業的企業與開發人員解決複雜的問題,併發掘新商機。不過生成式AI模型的成長,也導致訓練、調整與推論方面的要求變得更加嚴苛。過去五年來,生成式AI模型的參數每年增加十倍,現今的大型模型具有數千億、甚至數兆項參數,即便使用最專門的系統,仍需要相當長的訓練時間,有時需持續數月才能完成。高效率的AI工作負載管理需要一個具備一致性、且由最佳化的運算、儲存、網路、軟體和開發框架所組成的整合式AI堆疊。
Google宣佈Cloud TPU v5p,是Google目前功能最強大、擴充能力最佳,且最具有彈性的 AI 加速器。長久以來,TPU一直是用來訓練、服務AI支援的產品之基礎,包含YouTube、Gmail、Google地圖、Google Play及 Android。Google日前宣佈推出功能最強大、最通用的AI模型Gemini便是使用TPU進行訓練與服務。
此外 Google宣佈推出Google Cloud AI Hypercomputer。AI Hypercomputer是Google Cloud的突破性超級電腦架構,採用整合式系統,並結合了效能最佳化硬體、開放式軟體、領先機器學習架構及靈活彈性的消費模式。AI Hypercomputer採用系統層級的協同設計來提升AI訓練、調整與服務的效率與生產力。
Cloud TPU v5e相較於上一代的TPU v4,Cloud TPU v5e的性價比提高2.3倍,是目前最具成本效益的TPU。而 Cloud TPU v5p是目前功能最強大的TPU。每個TPU v5p Pod均由8,960個晶片組成,透過頻寬最高的晶片間互連網路(Inter-chip Interconnect, ICI)相連,採用3D環面拓撲,提供每晶片4,800 Gbps的速度。相較於TPU v4,TPU v5p每秒的浮點運算次數(FLOPS)提高2倍以上,高頻寬記憶體(High-bandwidth Memory, HBM)則增加3 倍。
TPU v5p 專爲效能、彈性與大規模作業而設計,相較於前一代的TPU v4,TPU v5p訓練大型LLM模型的速度提升 2.8 倍。不僅如此,若搭配第二代SparseCores,TPU v5p訓練嵌入密集模型的速度較TPU v4快1.9倍。
延伸閱讀