基於人類視頻數據學習,「零次方科技」四個月已完成兩款人形機器人研發|早期項目

作者|黃楠

編輯|袁斯來

數據之於技術發展的重要性長期存在。但由於它的採集難度大,訓練數據成了橫亙在機器人規模化落地面前的一座大山。

目前,機器人的訓練數據大體上可分爲三類:第一類是真實的遙操數據,第二類是高質量的仿真合成數據,第三類是人類的行爲數據、其主要源於互聯網視頻。

機器人訓練數據(圖源:零次方科技)

隨着Scaling Law在人工智能領域被驗證,大語言模型和以特斯拉FSD(Full-Self Driving)推理爲代表的端到端高速大模型,給具身智能領域帶來了新的啓發。

要實現具身智能,無論是遵循多模態大模型、採取構建高維世界模型、亦或是組合專有領域小模型的多種路徑,其核心就在於能否解決對多樣性、高質量數據的需求。通過對這一核心問題的思考,硬氪近日接觸到的具身智能創業公司「零次方科技」提出了他們的解法——基於人類視頻數據學習(Learn from hunman video)。

「零次方科技」成立於今年5月,由清華大學和江淮前沿技術協同創新中心共同孵化,核心成員來自清華大學AI&Robot智能機器人實驗室,團隊中還有多位主創曾就職於字節跳動、百度等互聯網大廠、節卡等協作機器人公司。

數據量是實現通用具身操作的必需因素,單位數據成本是產品落地的基礎條件。一個現實情況是,真實遙感數據和仿真數據都存在單位成本高的問題,而人類數據雖然數據量最龐大、但其數據質量是最低的。如何利用好海量的人類視頻數據成爲「零次方科技」探索的主要技術路徑。

數據量與應用場景(圖源:零次方科技)

區別於當前主流的遙操作技術,「零次方科技」藉助三維人體運動姿態感知模型,通過提取人類關鍵關節的運動數據、並重映射到機器人身上,可在一定程度上降低算法的學習成本;同時,基於4D高斯濺射技術對機器人所觀測信息進行重建,獲得一個基於擴散模型的機器人動作生成策略,驅動機器人自主完成任務,使其具備直接向人類學習的能力(LFWH)。

測試結果顯示,在LFWH基礎上,機器人能夠在仿真訓練中進行強化學習,實現更加靈活泛化的操作,以彌補機器人與人之間的先天性結構差異,進而趕超人類專家的工作效率,並實現快速部署。

根據專項場景的數據及互聯網數據訓練想象生成模型(Imaginator),隨着imaginator能力提升,模型訓練中所需的真實數據逐漸減少,生成數據的比例越來越高,算法的泛化性也隨之增強,進而實現Imaginator的生成能力愈發接近真實世界,逼近現實物理規律的世界模型,最終實現真正的通用人工智能。

想象生成模型(圖源:零次方科技)

以「零次方科技」9月發佈的雙臂機器人F1爲例。F1當前正嘗試將其引入專業工廠的專項操作中落地使用,通過逐步拓展場景、推動數據飛輪滾動,可以有效提高模型和機器人的泛化能力。

比如中小企業工廠改造難、手動編程等問題,「零次方科技」提出,用機器人自主學習實現原位替代,不需要改變工廠佈局、也不需要編程,只需把機器人引入人類崗位中,通過其持續學習的能力、不斷填入數據,以增強機器人在場景方面的泛化能力。

用機器人模擬人類行爲進行數據訓練(圖源:零次方科技)

在機器人整機方面,「零次方科技」四個月共完成了兩款人形機器人的研發工作。除上述提到的F1雙臂機器人外,10月23日,公司正式發佈首款人形機器人Z1,該機器人可以在多種不規則路面、複雜地形中長時間穩定行走,且具備優秀的抗干擾性能,即使受到各方向的強衝擊也能保持穩定站立。

Z1配備有150Nm關節電機,全身具備27個自由度,載重測試極限高達20公斤,負載/自重比超70%。其搭載了自研的EtherCAT通訊模組,整體系統可實現低延時、高帶寬;同時,團隊還採用了AI技術輔助進行機器人的結構參數設計,能耗更低、其動態運動性能更高。

目前,「零次方科技」正在嘗試讓機器人學習電影《鋼甲鐵拳》中的畫面,已實現對人類雙臂動作的準確復刻。根據官方公佈的視頻畫面,通過觀察人類的行爲動作,Z1可以模仿人學習攻擊招式,以靈活的全身協同控制能力爲基礎,進行動態防禦。

創始人閔宇恆表示,計劃於今年年底,其機器人將在無操作設備的情況下展開人形機器人拳擊比賽,實現每個人的機甲夢。