高中輟學天才、谷歌ViT三大將集體跳槽OpenAI!組隊Sora決戰AGI
新智元報道
編輯:靜音 好睏
【新智元導讀】OpenAI又有新人加入!來自DeepMind的3名頂級工程師兼ViT共同一作,來自Midjourney的全能工程師兼高中輟學神童——人才大戰從未止息……
就在昨天,OpenAI從谷歌DeepMind挖走了3名頂級工程師!
3名工程師分別是Lucas Beyer、Alexander Kolesnikov和Xiaohua Zhai,都在X上官宣了這條消息。
據悉,加入OpenAI後,他們將致力於多模態人工智能的研發。
他們曾是近年來最先進視覺方法(SOTA)以及開源模型(如ViT、SigLIP和PaliGemma)的幕後功臣。
三人之間的關係也非常密切,學術合作頗多。
上下滾動查看
其中,他們於2021年作爲共同一作發佈的論文「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」,被引用量高達4.9萬。
該論文提出了Vision Transformer (ViT) 。當在大規模數據上進行預訓練,並遷移到多箇中型或小型圖像識別基準(如ImageNet、CIFAR-100、VTAB等)上時,ViT相較於最先進的卷積網絡能夠取得優異的結果,同時所需的訓練計算資源顯著更少。
研究證明了,在視覺領域中,對卷積網絡的依賴並非必要,一個直接應用於圖像塊序列的純Transformer在圖像分類任務中也能表現出色。
在此之前,2020年他們還曾一起提出了神經網絡架構Big Transfer (BiT),也是一次視覺模型擴展的突破。
ViT之後,他們在神經網絡架構方面的探索也沒有止步,分別在2021年和2023年提出了MLP-Mixer和FlexiViT。
此外,他們三人還一起參與開發了開放權重模型SigLIP和PaliGemma。
2023年,他們一起研究提出了一種用於語言-圖像預訓練 (Language-Image Pre-training, SigLIP) 的簡單成對Sigmoid損失函數,發現在CLIP中使用Sigmoid替代SoftMax更具可擴展性。
結合鎖定圖像微調 (Locked-image Tuning),他們使用僅四塊TPUv4芯片在兩天內訓練出一個SigLiT模型,其在ImageNet零樣本分類任務中達到了84.5%的準確率。
PaliGemma則是今年7月提出的。PaliGemma是一個開源的視覺語言模型(VLM),基於SigLIP-So400m視覺編碼器和Gemma-2B語言模型構建,在各種開放世界任務中表現強勁。
值得注意的是,Xiaohua Zhai(翟曉華)是一名華人,本科畢業於南京大學,且曾於2014年獲得了北京大學計算機科學博士學位。
在谷歌DeepMind時,他擔任高級研究科學家兼經理,並領導着蘇黎世的一支多模態研究團隊,專注於多模態數據(如WebLI)、開放權重模型(SigLIP、PaliGemma)以及包容性(CultureDiversity)等領域的研究。
至於Alexander Kolesnikov,他自2018年起,一直在谷歌工作,並擔任高級研究科學家。
在此之前,他在奧地利科技研究所(ISTA)攻讀博士學位,導師是Christoph Lampert,當時的研究方向是弱監督學習和生成圖像模型。
他的成就包括訓練了多個最先進(SOTA)的視覺模型(2019、2020 和 2021年的ImageNet SOTA),以及此前提到的開放權重模型SigLIP和PaliGemma、神經網絡架構方面的BiT、ViT、MLP-Mixer和FlexiViT。
最近,他的研究重點是統一、簡化並擴展多模態深度學習,如UViM、帶獎勵的視覺模型(Vision with Rewards)和JetFormer。
他還熱衷於編寫靈活且高性能的研究基礎架構(尤其是在JAX中)。其中很大一部分是開源的,例如 big_vision。
Lucas Beyer則很有趣,在自己的博客上自詡爲「一個自學成才的黑客和科學家」。
據他介紹,他已經在頂會上發表了相當多的論文。迄今爲止,他一共發表了50多篇論文。
他也是在2018年加入了谷歌。
高中輟學,Midjourney工程師加入OpenAI
五年前,Gabriel Petersson還是個瑞典的高中輟學生,幾乎沒有任何工程經驗便加入了一家創業公司。
而今天,他正式成爲了OpenAI的研究科學家,致力於用Sora來構建AGI。
在推文中,Petersson寫道,當下有衆多公司都在爭相「開發」AI模型,但是這種模仿和追趕是非常容易的。
相比之下,全世界只有一家公司在提升模型的智能水平方面取得了突破性進展。
目前,AI在理解現實世界方面仍面臨諸多挑戰。
爲應對這一問題,我們可以爲AI構建可探索的場景,讓它從最基礎的像素數據中重新發現物理定律,同時爲類人機器人打造用於學習的模擬環境。
Petersson最後表示,他將與一羣他所遇到過的最傑出人才攜手,共同攻克這些關鍵難題。
縱觀Petersson的經歷,不得不感慨他真是神童一個。
14歲就非常有商業頭腦。那一年他開始從事寶可夢卡片交易,2年間總利潤超過2萬美元,保持很高的利潤率。
他製作的《我的世界》(Minecraft)延時攝影視頻獲得數百萬次播放量;還運營《我的世界》遊戲服務器,與內容創作者合作,並嘗試將自建的開放世界角色扮演遊戲服務器商業化。
17、18歲的時候,Petersson從高中輟學,作爲創始團隊成員加入Depict.ai(YC 2020夏季批次),該公司現已發展到約40名員工。
期間,他技術銷售兩手抓:既運用CNN和NLP技術開發了首個產品推薦系統,又負責B2B銷售,通過上門拜訪成功簽約多個客戶。
在他18、19歲這兩年,恰逢新冠疫情,Petersson開發了一個洗手液比價網站,首周就實現了2.2萬美元收入。
後來,在19-20歲期間,Petersson還被聘爲瑞典最大的雲廚房企業Curb Food的臨時首席技術官,公司當時有80名員工。並且他在這個公司從零開始組建了7人的工程師團隊,成功將廚房管理系統推向生產環境。
後來的兩年,Petersson作爲Dataland(YC孵化項目)的創始工程師,打造了一款面向開發者的高性能Airtable替代產品——能在幾秒內加載數十萬行數據;開發了業界性能最強的網頁表格之一,可以流暢處理數十萬行數據的篩選和排序,且保持穩定幀率。
另外,他還用Rust語言結合Skia圖形引擎開發了一個實驗性網頁表格。即使在 CPU 降速6倍的情況下,仍能保持60幀的滾動和渲染速度。
演示鏈接:https://www.loom.com/share/540ad426c22c4db192293babfc9c7fdf
22歲之後,Petersson就一直在Midjourney擔任軟件工程師,負責 /rank、/surveys 和 /ideas 等頁面的開發。工作涵蓋從前端到數據庫再到網絡的全棧開發。
參考資料:
https://www.wired.com/story/openai-hires-deepmind-zurich/