人形機器人的“ChatGPT時刻”?清華團隊發現具身智能Scaling Laws
最近,清華大學交叉信息院的研究者們取得了一項重大突破,他們發現了具身智能領域的“聖盃”——data scaling laws,這一發現很可能成爲機器人領域的“ChatGPT時刻”。
研究團隊將機器人帶出實驗室,讓它們在火鍋店、咖啡廳、公園、電梯等各種真實場景中接受考驗。令人驚喜的是,機器人展現出了超強的適應能力,能夠在前所未見的環境中熟練地完成任務,如爲顧客倒飲料、端菜等。這種零樣本泛化能力的實現,得益於團隊發現的三個革命性的冪律關係。通過對超過4萬條人類演示數據的收集和分析,他們發現模型對新物體、新環境以及環境-物體組合的泛化能力分別與相應的訓練數量呈冪律關係。這意味着只要有足夠的數據,機器人就能像ChatGPT理解語言一樣理解和適應物理世界,爲機器人技術的發展提供了堅實的理論基礎。
不僅如此,團隊還在數據收集方法上取得了突破。他們通過大量實驗得出結論:當環境數量足夠多時,每個環境只需一個操作物體的數據;單個物體的演示數據達到一定次數後性能趨於穩定,如在一些任務中50次示範基本足夠。這一策略大大提高了數據收集的效率,原本可能需要數月的工作現在可能只需幾天就能完成。例如,團隊找來4個人,僅一個下午就收集到了訓練數據,且在8個全新場景中機器人成功率高達90%。
在模型規模化方面,團隊也有重要發現。視覺編碼器必須經過預訓練和完整的微調;擴大視覺編碼器的規模能提升性能,但擴大擴散模型的規模卻未帶來明顯提升。這些發現爲機器人模型的優化提供了方向。
然而,研究團隊也意識到,數據規模化推動機器人技術進步的同時,提升數據質量可能更爲關鍵。如何確定真正需要擴展的數據類型以及如何高效獲取高質量數據,是未來需要探索的方向。
清華團隊的這一發現具有里程碑意義,它不僅證實了機器人領域與語言模型的相似性,更爲通用機器人的開發提供了新的思路和方法。相信在不久的將來,具備超強適應能力的機器人將走進千家萬戶,徹底改變我們的生活方式。就像ChatGPT改變了我們對語言處理的認知一樣,具身智能Scaling Laws也將引領機器人技術邁向一個嶄新的時代。