☰

人形機器人的“ChatGPT時刻”？清華團隊發現具身智能Scaling Laws

最近，清華大學交叉信息院的研究者們取得了一項重大突破，他們發現了具身智能領域的“聖盃”——data scaling laws，這一發現很可能成爲機器人領域的“ChatGPT時刻”。

研究團隊將機器人帶出實驗室，讓它們在火鍋店、咖啡廳、公園、電梯等各種真實場景中接受考驗。令人驚喜的是，機器人展現出了超強的適應能力，能夠在前所未見的環境中熟練地完成任務，如爲顧客倒飲料、端菜等。這種零樣本泛化能力的實現，得益於團隊發現的三個革命性的冪律關係。通過對超過4萬條人類演示數據的收集和分析，他們發現模型對新物體、新環境以及環境-物體組合的泛化能力分別與相應的訓練數量呈冪律關係。這意味着只要有足夠的數據，機器人就能像ChatGPT理解語言一樣理解和適應物理世界，爲機器人技術的發展提供了堅實的理論基礎。

不僅如此，團隊還在數據收集方法上取得了突破。他們通過大量實驗得出結論：當環境數量足夠多時，每個環境只需一個操作物體的數據；單個物體的演示數據達到一定次數後性能趨於穩定，如在一些任務中50次示範基本足夠。這一策略大大提高了數據收集的效率，原本可能需要數月的工作現在可能只需幾天就能完成。例如，團隊找來4個人，僅一個下午就收集到了訓練數據，且在8個全新場景中機器人成功率高達90%。

在模型規模化方面，團隊也有重要發現。視覺編碼器必須經過預訓練和完整的微調；擴大視覺編碼器的規模能提升性能，但擴大擴散模型的規模卻未帶來明顯提升。這些發現爲機器人模型的優化提供了方向。

然而，研究團隊也意識到，數據規模化推動機器人技術進步的同時，提升數據質量可能更爲關鍵。如何確定真正需要擴展的數據類型以及如何高效獲取高質量數據，是未來需要探索的方向。

清華團隊的這一發現具有里程碑意義，它不僅證實了機器人領域與語言模型的相似性，更爲通用機器人的開發提供了新的思路和方法。相信在不久的將來，具備超強適應能力的機器人將走進千家萬戶，徹底改變我們的生活方式。就像ChatGPT改變了我們對語言處理的認知一樣，具身智能Scaling Laws也將引領機器人技術邁向一個嶄新的時代。

人形機器人的“ChatGPT時刻”？清華團隊發現具身智能Scaling Laws

相關資訊