3B模型打通機器人任督二脈!衝咖啡疊衣服都能幹,OpenAI也投了

只要一個3B參數的大模型,就能控制機器人,幫你搞定各種家務。

疊衣服衝咖啡都能輕鬆拿捏,而且全都是由模型自主控制,不需要遙控。

關鍵是,這還是個通用型的機器人控制模型,不同種類的機器人都能“通吃”。

這些操作背後的大模型叫做π0,參數量只有3B,來自今年剛成立的初創公司Physical Intelligence(簡稱π)。

創立之後不久,π公司就獲得了7000萬美元(約5億人民幣)的A輪融資,投資者中還包括OpenAI。

而公司的目標,就是開發通用的機器人控制模型,現在的π0,就是其首項成果。

有網友直言,π0控制的機器人,是他見過最接近真正的通用機器人的。

關鍵是,參數量只有3B,算力消耗非常小,如果和同規模的模型性能特徵相近,廉價顯卡就能帶動。

Hugging Face的機器人團隊領軍人物、前特斯拉Optimus團隊成員Remi Cadene也說,如果π0能開源的話,人們自己在家就能體驗了。

在官宣當中,π團隊展示了疊衣服、整理桌子、雞蛋裝盒等等複雜(對機器人來說)任務。

這些任務不僅需要長時間、多階段的連續決策,還要求動作同時具備高頻率與精細程度。

許多任務更是涉及了複雜的接觸動力學,如衣物的變形塑性、紙箱的剛性、雞蛋的脆弱性等。

機器人需要精準建模並控制這些動力學過程,甚至滿足更多物理約束,如保持物體平衡、避免碰撞。

但總之最後π團隊還是成功了,π0不僅能控制機器人,還能控制不同的機器人,出色地完成這些任務。

比如讓雙臂可移動機器人收拾洗好的衣服。

只見機器人站到洗衣機前,打開了艙門,然後將洗好的衣服取出放入筐內。

然後又來到一張桌子旁,將筐裡的衣服取出、鋪開然後疊好。

還有讓另一種雙臂機器人把盤子裡的雞蛋裝入盒子中,之後再把盒子蓋好。

甚至有條不紊地摺疊好一個展開的紙盒。

而且知道利用工具,比如這個機器人,用叉子把剩餘的食物裝進了打包盒。

到了收拾桌子的任務當中,負責執行的機器人又變成了單臂。

它可以把要保留的物品放入收納筐,將不需要的垃圾丟進垃圾桶。

並且在物品和垃圾混合放置時也能準確操作。

當然從數據上看,π0在零樣本泛化能力、語言控制響應、新任務學習、多階段任務等維度上也表現優異。

零樣本泛化能力上,π0在所有任務上都顯著超過了baseline模型,即使未加入預訓練視覺模型的π0-small也比這些baseline表現優異。

指令處理上,π0在3個語言指令任務上,經人類指導取得了最好的自主表現,高層策略指導也有提升。

在與預訓練數據差異較大的新任務上,π0在大多數任務上性能最好,尤其在微調數據量較小時優勢明顯。

這意味着,不需要專門訓練,π0就能讓機器人自動完成很多開放性任務。

最後在一系列極具挑戰的複雜任務上,π團隊通過結合微調和語言指令對π0進行了測試。

結果π0能夠完成折衣服、整理餐桌、組裝紙箱、裝雞蛋等長達5-20分鐘的任務,取得了50%以上的平均得分。

效率方面,官方技術報告中公佈了π0在4090上的運行時間。

一次完整的前向傳播也需要73-86毫秒,這對實時性要求高的場景可能還有挑戰。

但考慮到流匹配過程能生成50個動作步,平均下來每個動作步的生成時間也並不高。這

所以從整體上看,π0的計算效率,或者說實時性,還是比較高的,當然離網友們期待的家家可用,可能還需要再提速一些。

那麼,π團隊在π0模型上,都運用了什麼樣的技術呢?

π0是基於視覺模型PaLM-ViT改造而成,在其基礎上增加了一個投影層、一個多層感知機,以及一個較小的動作專家模塊。

其中投影層用於處理機器人狀態和動作的輸入輸出,多層感知機用於整合流匹配(flow matching)時間步信息,專家模塊則用單獨的權重處理機器人狀態和動作tokens。

模型的輸入包括圖像、語言指令、機器人本體感受狀態和噪聲動作塊。

圖像和語言tokens送入VLM主幹網絡,狀態和動作tokens送入動作專家模塊。

最終,模型會輸出動作塊的向量場表示。

對於連續動作分佈的建模,π0模型使用了條件流匹配(conditional flow matching)方法。

流匹配的工作方式和擴散模型有些類似,核心思想都是通過逐步添加噪聲來簡化數據分佈,然後逐步去噪得到隱私數據——

訓練時,隨機對動作施加高斯噪聲,並訓練模型輸出去噪向量場;推理時,從高斯噪聲開始,通過數值積分向量場生成動作序列。

不同之處在於,流匹配直接對數據和噪聲分佈之間的映射場(vector field)進行建模,訓練目標是匹配這一映射場,而擴散模型通常學習的是每個去噪步驟的條件分佈。

流匹配方法能夠高精度地建模複雜多峰分佈,非常適合高頻靈巧操作任務。

訓練數據方面,π0是在迄今爲止最大的機器人交互數據集上進行訓練的。

預訓練階段的數據集中包括OXE、DROID、Bridge等開源數據,以及團隊在8個不同的機器人平臺中收集的大量靈巧類任務數據等內容。

團隊自己收集的數據集括68個任務,涉及單臂任務106M步、雙臂任務797M步,數據採用了50Hz高頻控制。

開源數據和團隊自己收集的數據,比例大約是1:9。

另外爲了讓π0掌握特定複雜技能,團隊在20多個下游任務上進行了微調。

根據任務的難度和相似度,微調數據量從5小時到100多小時不等,一些任務還結合了高層語言策略模塊來分解複雜目標。

用團隊成員切爾西·芬(Chelsea Finn)的話說,預訓練是爲了讓模型能夠應對各種場景,後訓練(微調)則是讓π0掌握更多的策略。

Physical Intelligence公司成立於今年,已經獲得總計7000萬美元的A輪融資。

融資由紅杉資本領先,此外還有包括OpenAI在內的6家公司參投。

公司還有個簡稱叫做π,因爲Physical Intelligence的縮寫pi,剛好是π的拉丁轉寫。

雖然是家機器人公司,但π並不生產機器人硬件,只負責訓練模型,目標是構建能夠通用的機器人模型。

對此,π的聯合創始人兼CEO卡羅爾·豪斯曼(Karol Hausman)在公開場合解釋:

對於此事的意義,公司另一名聯創謝爾蓋·萊文(Sergey Levine)在推特上舉例說明,π創業要做的事之於機器人控制,其重要程度就像NLP之於大模型。

π的創始人背景也都十分亮眼,都是機器人和AI專家,在機器人、工程和許多其他領域擁有深厚經驗。

CEO卡羅爾·豪斯曼(Karol Hausman),此前曾是谷歌大腦機器人操作研究主管,2021年至今兼任斯坦福客座教授。

聯合創始人謝爾蓋·萊文(Sergey Levine),UC伯克利電氣工程和計算機科學系副教授,谷歌學術被引用量爲超過12.7萬。

而且還是不折不扣的頂會狂魔,據不完全統計,萊文2018年在ML和NLP頂會上共發表22篇論文,與另外兩人並列全球第一……

萊文在UC伯克利還是個網紅教授,此前推出的深度學習課程Deep Reinforcement Learning(深度強化學習,課程代號CS 285)非常受歡迎。

同時,在斯坦福家務機器人ALOHA的相關論文中,萊文的名字也經常出現。

聯創切爾西·芬(Chelsea Finn),斯坦福計算機科學和電氣工程系助理教授,谷歌學術論文引用數超4.7萬。

在ALOHA團隊的論文當中,芬經常以通訊作者的身份出現。

此外,還有谷歌大腦機器人團隊前科學家布賴恩·伊希特(Brian Ichter)、豐田研究院ML研究團隊的研究科學家蘇拉吉·奈爾(Suraj Nair)等。

可以說陣容是非常豪華了。

擁有超級團隊的π,也仍在繼續招兵買馬,在研究科學家、ML工程師、數據工程師等多個崗位招聘員工和實習生。

技術報告:https://www.physicalintelligence.company/download/pi0.pdf參考鏈接:[1]https://www.physicalintelligence.company/blog/pi0[2]https://www.reddit.com/r/singularity/comments/1ggm6za/a_3b_pretrained_generalist_model_trained_on_8/[3]https://twitter.com/chelseabfinn/status/1852043351366996449