DeepMind推出具身智能“足球運動員”,過人、射門、防守樣樣精通

足球是一項綜合性非常強的運動,運動員不僅需要具備超出常人的身體素質,還必須掌握十分精湛的技術。

對於我們人類而言,要想成爲一名好的足球運動員並不容易,更不用說那些“肢體不協調且動作僵硬”的機器人了。

如今,由 Google DeepMind 研發的具身智能體(agent)——一個微型人形機器人,不僅可以快速“奔跑”“過人”“進攻”,還可以閱讀比賽,正確預測足球移動方向,以及阻擋對手射門等。

據介紹,在實驗中,與對比基線相比,該機器人奔跑速度快了181%,轉身速度快了302%,(跌倒後)起身時間縮短了63%,踢球速度快了34%,同時也能有效地將各種技能結合起來,遠遠超出了人們此前對機器人的固有認知。

相關研究論文以“Learning agile soccer skills for a bipedal robot with deep reinforcement learning”爲題,以封面文章的形式已發表在Science子刊Science Robotics上。

“足球智能體”是如何踢球的?

創建通用具身智能,即創建能夠像動物或人類一樣在物理世界中敏捷、靈巧和理解地行動的智能體,是人工智能(AI)和機器人領域長期以來共同追求的目標。

深度強化學習(deep RL)已被證明能夠解決模擬角色和物理機器人的複雜運動控制問題。

如今,高質量的四足腿式機器人已經廣泛應用,並被用來展示從穩健和敏捷的移動到跌倒恢復、攀爬、基本的足球技能(如帶球、射門、截球或接球),以及用腿進行簡單的操縱。

然而,另一方面,對於人形機器人和雙足機器人的控制,投入的工作要少得多,這些機器人對穩定性、機器人安全性、自由度數量和適用硬件的可用性提出了額外的挑戰。

現有的基於學習的工作更加有限,主要集中在學習和轉移獨特的基本技能,如行走、跑步、爬樓梯和跳躍。人形控制領域的新技術使用有針對性的基於模型的預測控制,從而限制了該方法的通用性。

在這項研究中,爲使機器人能夠執行長期任務,Google DeepMind 團隊討論了基於學習的人形機器人全身控制。特別是,他們使用深度強化學習訓練低成本的現成機器人踢多機器人足球,機器人在訓練後展現出的敏捷性和流暢性遠超人們的期望。

他們專注於從本體感受和運動捕捉觀察中獲得的感覺運動全身控制,爲此訓練了一個智能體在模擬中進行簡化的一對一足球,並直接將學習到的策略部署在真實機器人上(如下圖)。

圖|機器人足球環境。Google DeepMind 團隊創建了匹配的模擬(左)和真實(右)足球環境。球場長 5 米,寬 4 米,在真實環境中鋪有 50釐米的方形面板。真實環境還配備了一個動作捕捉系統,用於跟蹤兩個機器人和足球。(來源:該論文)

據論文描述,訓練流程包括兩個階段。在第一階段,研究團隊訓練了兩種技能策略:一個是起身站立;另一個是面對未經訓練的對手進行射門得分。

在第二階段,通過提煉技能,並使用一種自我博弈形式的多智能體訓練,來訓練智能體完成完整的 1v1 足球任務,其中對手是從智能體自身的部分訓練副本池中抽取的。

圖|智能體訓練設置。分爲兩個階段:在技能訓練階段(左),分別訓練了足球技能和起身技能;在提煉和自我發揮階段(右),將這兩種技能提煉成一個既能從地上站起來又能踢足球的個體;第二階段也包含了自我博弈:從早期訓練中保存的策略快照中隨機抽取對手。(來源:該論文)

結果發現,與從頭開始訓練智能體進行完整的 1v1 足球任務相比,這種兩階段方法可以帶來更好的定性行爲和改進的模擬到真實的轉移。

據介紹,訓練後的智能體展現了敏捷和動態的運動能力,包括行走、側移、踢球、摔倒後恢復和與球的互動,並將這些技能流暢、靈活地組合在一起。

另外,智能體也涌現出了一些意想不到的策略,這些策略比腳本策略更充分地利用了系統的全部功能,而這些策略可能是人類根本沒有想到的。

其中一個例子就是新出現的“轉身行爲”,即機器人用腳的一角做支點並旋轉,這對腳本設計來說具有挑戰性,但它的表現卻優於較爲保守的基線。

此外,這一學習方法可以發現針對特定比賽情況進行優化的行爲。例如,與情景相關的敏捷技能,如踢移動的球;新出現的戰術,如巧妙的防守跑動模式;以及適應比賽情況的步法,如在接近持球者時與追逐無球對手時相比,步法更短。

而且,智能體學會了對足球和對手做出預測,根據比賽環境調整動作,並在較長的時間尺度內協調動作,從而最終完成進球。

不足與展望

研究團隊表示,這項工作爲在動態多智能體環境中實際使用深度強化學習靈活控制人形機器人邁出了重要一步。

然而,該研究還存在一定的侷限性,例如:

1)領域特定知識和隨機化:研究中的學習流程依賴於一些特定領域的知識和領域隨機化,這是機器人學習文獻中常見的做法。例如,獎勵函數設計和起立技能的訓練都需要手動選擇正確的技能狀態,這可能對更動態的平臺來說難以實現或不切實際。

2)未利用真實數據進行遷移:研究方法完全依賴於模擬到真實的遷移,而不是在訓練中結合真實數據。在真實機器人上進行微調或在模擬訓練中混合真實數據可能有助於改善遷移效果,並使得行爲更加穩定多樣。

3)未考慮更大尺寸機器人:研究應用在小型機器人上,並未考慮與更大尺寸相關的額外挑戰。當前系統可以在多個方面進行改進,例如,對於更大尺寸的機器人,可能需要考慮更多的動態和穩定性問題。

4)性能隨時間退化:機器人的性能會隨時間快速退化,主要是因爲髖關節變鬆或關節位置編碼器校準失誤。因此,需要定期進行機器人維護。

5)自我博弈設置的不穩定性:在某些情況下,自我博弈可能導致學習不穩定。採用基於羣體的訓練方案可能提高穩定性,並帶來更好的多智能體性能。

6)獎勵項的權重調整:研究中使用了多個輔助獎勵項,其中一些是爲了改善遷移(例如,直立獎勵和膝蓋扭矩懲罰),一些是爲了更好的探索(例如,前進速度)。通過加權平均這些不同項作爲訓練獎勵,並通過對超參數的廣泛搜索進行調整。然而,多目標強化學習或約束強化學習可能能夠獲得更好的解決方案。

在未來的工作中,研究團隊提出了兩個重點關注的方向。

一個令人興奮的未來工作方向是“多智能體足球”,即訓練兩個或更多智能體組成的團隊。

可以直接應用該論文提出的方法來訓練這種設置下的智能體。在初步的 2v2 足球實驗中,研究團隊觀察到智能體學會了勞動分工,這是一種簡單的合作形式:如果隊友更接近球,那麼智能體就不會接近球。然而,這種方法也導致智能體表現出了更少的敏捷行爲。

另一個工作方向爲“從原始視覺訓練足球”,也就是說,僅使用機載傳感器進行學習,而不依賴於運動捕捉系統的外部狀態信息。

與可以直接獲取球、球門和對手位置的基於狀態的智能體相比,基於視覺的智能體需要從有限的高維自我中心相機觀測歷史記錄中推斷信息,並隨着時間的推移整合部分狀態信息,這大大增加了問題的難度。

目前,研究團隊已經研究瞭如何訓練僅使用機載 RGB 相機和本體感知的視覺智能體。通過神經輻射場模型創建了實驗室的視覺渲染,並使機器人學會了包括球的追蹤和對手及目標的情境感知在內的行爲。