「諜戰」開啓!基建狂魔馬斯克122天交付10萬卡超算,對手大恐慌派間諜飛機偵查
新智元報道
編輯:Aeneas 好睏
【新智元導讀】捲到沒邊了,122天交付10卡超算,馬斯克造Colossus的神奇速度,直接把對手們幹懵逼了!OpenAI和微軟甚至因此談崩了。現在,超算大戰乾脆升級爲諜戰模式,對手直接派出飛機懸空偵查。
122天交付10萬卡超算,神奇的「馬斯克速度」,直接把競爭對手們整崩潰了!
消息傳出,整個行業都震驚不已。
就在今天,The Information甚至曝出內幕大瓜:有人甚至直接租飛機,直接飛到馬斯克的數據中心上空偵查。
他們想知道,馬斯克究竟是什麼超人,能創下這樣的奇蹟。
要知道,正常來說,10萬H100的超算中心,通常需要3年建成,再需要1年調試,才能投入使用。
馬斯克這麼一搞,讓OpenAI奧特曼連微軟都看不順眼了——你這樣顯得我們弱爆了!
因爲嫌棄微軟建數據中心的速度太慢,OpenAI據說直接扭頭找了其他初創公司,來造十萬卡集羣。
而英偉達CEO老黃,則毫不掩飾自己對馬斯克的溢美之詞——
間諜飛機出動,「馬斯克速度」不能忍了!
10月一個陽光明媚的日子,一架螺旋槳飛機在田納西州孟菲斯市中心一座大型工業建築物上空多次盤旋。
機上的乘客,不斷地拍攝着這座設施的照片和視頻。
這是一次秘密偵查任務。
馬斯克將這座原本生產家用電器的製造廠,改造成了一個數據中心,裡面裝有全球最大的AI模型訓練算力集羣之一。
馬斯克如此快速地爲xAI建成了這臺AI超算,直接引發了OpenAI等對手領導層的焦慮和困惑。
那麼,飛機上的神秘乘客是誰呢?
The Information得到的消息是,他們是來自競爭對手數據中心的員工。
這個設施戒備森嚴,所以他們只能以這種方式獲取信息。
他們注意到,馬斯克運來大量燃氣渦輪機爲設施供電,同時也希望xAI是如何控制建築物內服務器散熱的。
孟菲斯上空的這架偵察飛機,只是科技史上最昂貴競賽的一次縮影罷了。
現在,微軟、Meta、谷歌、亞馬遜都在狂砸數百億美元建設新的數據中心,好爲訓練模型提供算力。
所有人都在爲這樣一個簡單的信念冒險下注:算力集羣越大,它訓出的AI模型就越好。
而這個信念,從ChatGPT在2022年底推出時,就根植於業內大多數人的腦海中。
馬斯克作爲OpenAI的共同創始人和早期投資者,開始在這場數據中心競賽中是落後的。
但通過無視傳統的暴力建法,他如今已經後來居上,掀起了巨大的波瀾。
Colossus超算有兩點震驚了競爭對手:一個是規模,一個是速度。
它有10萬塊GPU,規模是Meta等巨頭過去建造超算的數倍。
將如此多的GPU連接成一臺超算並不簡單,因爲服務器會消耗大量電力,用於連接這些GPU的網絡設備也存在瓶頸。
xAI能以如此快的速度完成這個項目,更是前所未有的壯舉。
馬斯克和爲Colossus提供GPU的AI芯片巨頭英偉達表示,這個數據中心和超算僅用122天就建成了。
在最近的一期播客中,英偉達CEO黃仁勳表示,這種規模的GPU集羣通常需要三年時間來規劃和設計,還需要額外一年時間才能投入運行。
「毫無疑問,這個項目中所有人都在沒日沒夜地工作。」
孟菲斯數據中心之所以能這麼快被馬斯克建成,部分原因似乎在於他省略了一些關鍵環節。
比如,在尚未從電網獲得足夠電力來運行Colossus的情況下,他就開始推進項目。
正是這種顛覆傳統的做法,讓馬斯克在其他領域屢屢成功。
比如在特斯拉,他就曾通過在停車場搭建Model 3的裝配線,來繞過加州工廠擴建所需的許可證。
在SpaceX,他不斷推動工程師們去掉他認爲不必要的火箭零件,或使用那些並非專爲太空設計的更經濟的組件。
馬斯克建造超算的速度一曝出,就引起了OpenAI CEO奧特曼的高度警惕。
據悉,當馬斯克在X上發佈相關信息後,奧特曼就和微軟的基礎設施主管發生了爭執。
奧特曼擔心,xAI很快就會擁有比OpenAI更強大的超算。
爲此,OpenAI開始尋求微軟之外的替代方案。
在德克薩斯州阿比林市的一片皇帝上,一個數據中心即將建成。它預計將在明年投入使用,容納OpenAI的10萬個GPU集羣。
爲了提高施工速度,大部分組件都採用了異地預製的方式,一運到現場就能快速安裝。
而微軟此前也和OpenAI籌建了更宏大的星際之門,將配備數百萬個GPU,單個項目造價超過千億美元。
或許過不了多久,阿比林和孟菲斯的超算都會顯得渺小了。
這種競爭態勢只會持續升級。因爲在數據中心行業,每個參與者都在嚴密監控對手的一舉一動。
因爲,數據中心是一個參與者極少的市場。
馬斯克的超算工廠
今年年初,馬斯克開始着手打造自己想要的超算,來推動xAI的發展。
剛創立xAI時,他租用了甲骨文的GPU,來訓練Grok。
爲了提升Grok的性能,他需要更多算力!
據悉,今年5月,馬斯克和潛在投資者舉行了視頻會議,意在爲xAI籌集數十億美元資金。
他向投資者展示的願景,是打造世界最大超算,名爲「超級算力工廠」(Gigafactory of Compute)。
他的計劃是這樣的:將英偉達當時最先進的10萬塊H100整合進一個統一的計算集羣。
圖表顯示,xAI建超算的速度比大多數公司快5倍。
根據一張PPT,xAI正以「前所未有的速度」推進項目,並承諾「馬斯克將親自確保數據中心如期交付」。
當時,這個項目是與雲服務商合作還是獨立進行,馬斯克尚未做出決定。
幾周後,數位甲骨文高管與馬斯克進行了視頻會議。馬斯克提議讓甲骨文負責超算的建造。(其創始人Larry Ellison是馬斯克的密友)
當時,馬斯克要求在2024秋季前完工。但甲骨文的高管們表示,這個deadline不可能。
一個關鍵問題,就是那棟建築物的供電能力,根本無法滿足計劃部署的芯片數量。
對此,馬斯克表示出明顯的不滿。最後他決定:由xAI獨立建設孟菲斯數據中心,不再尋求與甲骨文的合作。
外媒報道談判破裂的事實後,馬斯克很快在X上發文迴應:「甲骨文確實是一家優秀的公司。但是,當我們的成敗取決於必須保持絕對的領先速度時,我們必須自己掌控方向盤,而不能甘居幕後。」
電從哪兒來?
爲了實現這個雄心勃勃的進度,馬斯克力推孟菲斯當地官員以前所未有的速度批准了數據中心項目。
當時,孟菲斯市非常渴望引進這一項目,願意全力配合,這無疑是很大的利好。
大孟菲斯商會主席Ted Townsend表示:「我們不分晝夜地工作,隨時待命接收短信和電話,以展現與xAI發展速度和期望相匹配的執行力。」
6月初,Townsend正式宣佈,馬斯克已確定選擇孟菲斯,作爲xAI超算的落戶地。
隨後幾周,xAI團隊對孟菲斯製造廠展開全面改造,爲即將安裝的大量英偉達GPU服務器機架騰出空間。
他們安裝了電氣系統、機械設備和管道設施,建立了服務器水冷系統。
原本,電力供應可能會成爲計劃的最大掣肘,因爲孟菲斯基地的供電能力根本無法滿足xAI大量高耗能GPU的需求。不意外的話,數據中心項目就要延期或擱置了。
但馬斯克是誰?他提出一個臨時解決方案:引入移動式天然氣發電渦輪機作爲補充電源。
同時,他等待着當地部門審批基地新增100兆瓦電力供應的申請。就在上週,相關部門批准了這一請求。
這一舉動,立刻遭到環保組織的反對。
他們指控xAI未獲得許可就擅自發動燃氣渦輪機,導致空氣污染。
還有一個因素,促成馬斯克快速完工。
因爲Colossus只會用於xAI的自身業務,並非對外租賃,因此使用前幾乎無需經過任何合規測試。
對比鮮明的是,微軟在向OpenAI或其他Azure雲計算客戶提供服務器之前,必須通過一系列嚴格的數據安全測試,因爲這些客戶對系統運行時間和隱私保護有嚴格要求。
數據中心運營商DataBank的首席執行官Raul Martynek直言:「「我們必須通過各種嚴格的行業認證。我敢肯定,xAI的數據中心絕對無法達到這些認證標準。」
業內對馬斯克的超算也頗多質疑。
多位數據中心高管指出,將原有製造廠房改造成能容納GPU服務器和液冷系統的數據中心,在技術上存在極大挑戰。
內部人士透露,Colossus在過去幾個月中也的確出現過多次中斷。
但這些,並未打亂馬斯克的節奏。他和英偉達據馬斯克和英偉達透露,他們在首個服務器機架安裝完成後僅19天,就啓動了新一代Grok模型的首次訓練。
馬斯克的密友、多家馬斯克公司的長期投資者Antonio Gracias表示,xAI正在「從根本原理出發,重新思考數據中心的建設流程,致力於實現更經濟、更高效、更快速的建設方案。」
「這種場景,我在特斯拉、SpaceX都見過——馬斯克帶領着數十名工程師,以打造最優秀、最高效的系統爲使命,不斷突破創新。」
把同行們卷瘋了!
馬斯克給同行們的壓力,實在是太大了。
據說今年夏天,馬斯克超算飛速推進的消息在業內傳開後,亞馬遜、微軟和谷歌的數據中心高管們大吃一驚。
他們紛紛聯繫英偉達的工作人員,追問同一個問題:馬斯克爲何能取得如此驚人的速度?
Meta等科技巨頭還主動接觸了一家規模較小的競爭對手雲服務商,詢問是否能比自建更快地提供算力資源。
而隨着孟菲斯數據中心更多細節曝光,數據中心和雲計算領域的高管們正在仔細研究每一張圖片,試圖從中獲取關鍵的設計信息。
期間,馬斯克本人就大方地在X上分享了數據中心內部的多張圖片。
有趣的是,原本要與xAI合作的甲骨文,在談判破裂後不久,就轉而與OpenAI簽署了算力協議。
合作的新項目將在德州的阿比林市落地,爲共同開發這一地區,甲骨文已經和兩家創業公司Crusoe和Lancium達成協議。
就在上個月,Crusoe成功籌集了超過30億美元,用於數據中心的第一階段建設。中心即將部署10萬塊GB200系列GPU。
現在,大家都捲了起來。同馬斯克的項目一樣,Crusoe也在以驚人的速度推進。
項目承包商表示,這是自己職業生涯中建設速度最快的項目之一:3月討論設計方案,6月正式開工。
現在,阿比林工地的施工團隊正緊鑼密鼓地清理樹木,爲變電站騰出空間,每天還在最大限度地進行混凝土澆築作業。
知情人士透露,OpenAI已要求合作方考慮部署燃氣輪機作爲備用方案,以防現有電力供應無法按期到位。
在最近一次工地參觀活動中,有人問道:爲什麼要如此急切地推進數據中心建設?
嚮導給出意味深長的回答:「在超級計算機領域,誰能率先建成,誰就幾乎能掌握世界的主導權。」
參考資料:
https://www.theinformation.com/articles/how-elon-musks-supercomputer-freaked-out-ai-rivals?rc=epv9gi