國泰君安:智元推出通用具身基座大模型GO-1 提升成功率
財中社3月11日電 國泰君安發佈機器人行業事件點評。智元發佈首個通用具身基座模型Genie Operator-1。3月10日,智元發佈首個通用具身基座大模型GO-1,開創性地提出了VisionLanguage-Latent-Action (ViLLA)架構,該架構由VLM(多模態大模型)+ MoE(混合專家)組成,其中VLM藉助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規劃器)藉助大量跨本體和人類操作視頻數據獲得通用的動作理解能力,MoE中的Action Expert(動作專家)藉助百萬真機數據獲得精細的動作執行能力,三者環環相扣,實現了可以利用人類視頻學習,完成小樣本快速泛化,降低了具身智能門檻,併成功部署到智元多款機器人本體,持續進化,將具身智能推上了一個新臺階。
GO-1:VLA進化到ViLLA。爲了有效利用高質量的AgiBot World數據集以及互聯網大規模異構視頻數據,增強策略的泛化能力,智元提出了ViLLA這一架構。在推理時,VLM、Latent Planner和ActionExpert三者協同工作。其中LAM(隱式動作模型)主要用於獲取當前幀和歷史幀之間Latent Actions的Groundtruth(真值),它由編碼器和解碼器組成。Latent Planner負責預測這些離散的Latent ActionTokens,它與VLM主幹網絡共享相同的Transformer結構,同時引入Action Expert。結果顯示,相比已有的最優模型,GO-1成功率大幅領先,平均成功率提高了32%(46%->78%)。
GO-1的推出標誌着具身智能向通用化、開放化、智能化加速邁進。GO-1大模型可泛化應用到各類的環境和物品中,快速適應新任務、學習新技能。同時,它還支持部署到不同的機器人本體,高效地完成落地,並在實際的使用中持續不斷地快速進化,包括:1)從單一任務到多種任務;2)從封閉環境到開放世界;3)從預設程序到指令泛化。GO-1大模型將加速具身智能的普及,在商業、工業、家庭等多領域發揮更大的作用,通向更加通用全能的智能未來。