☰

國泰君安：智元推出通用具身基座大模型GO-1 提升成功率

財中社3月11日電國泰君安發佈機器人行業事件點評。智元發佈首個通用具身基座模型Genie Operator-1。3月10日，智元發佈首個通用具身基座大模型GO-1，開創性地提出了VisionLanguage-Latent-Action (ViLLA)架構，該架構由VLM（多模態大模型）+ MoE（混合專家）組成，其中VLM藉助海量互聯網圖文數據獲得通用場景感知和語言理解能力，MoE中的Latent Planner（隱式規劃器）藉助大量跨本體和人類操作視頻數據獲得通用的動作理解能力，MoE中的Action Expert（動作專家）藉助百萬真機數據獲得精細的動作執行能力，三者環環相扣，實現了可以利用人類視頻學習，完成小樣本快速泛化，降低了具身智能門檻，併成功部署到智元多款機器人本體，持續進化，將具身智能推上了一個新臺階。

GO-1：VLA進化到ViLLA。爲了有效利用高質量的AgiBot World數據集以及互聯網大規模異構視頻數據，增強策略的泛化能力，智元提出了ViLLA這一架構。在推理時，VLM、Latent Planner和ActionExpert三者協同工作。其中LAM（隱式動作模型）主要用於獲取當前幀和歷史幀之間Latent Actions的Groundtruth（真值），它由編碼器和解碼器組成。Latent Planner負責預測這些離散的Latent ActionTokens，它與VLM主幹網絡共享相同的Transformer結構，同時引入Action Expert。結果顯示，相比已有的最優模型，GO-1成功率大幅領先，平均成功率提高了32%（46%->78%）。

GO-1的推出標誌着具身智能向通用化、開放化、智能化加速邁進。GO-1大模型可泛化應用到各類的環境和物品中，快速適應新任務、學習新技能。同時，它還支持部署到不同的機器人本體，高效地完成落地，並在實際的使用中持續不斷地快速進化，包括：1）從單一任務到多種任務；2）從封閉環境到開放世界；3）從預設程序到指令泛化。GO-1大模型將加速具身智能的普及，在商業、工業、家庭等多領域發揮更大的作用，通向更加通用全能的智能未來。

國泰君安：智元推出通用具身基座大模型GO-1 提升成功率

相關資訊