DeepMind的一項研究提出了MuZero算法,該算法在不具備任何底層動態(tài)知識的情況下,通過結合基于樹的搜索和學得模型,在雅達利2600游戲中達到了SOTA表現(xiàn),在國際象棋、日本將棋和圍棋的精確規(guī)劃任務中可以匹敵AlphaZero,甚至超過了提前得知規(guī)則的圍棋版AlphaZero。
MuZero 算法在國際象棋、日本將棋、圍棋和雅達利(Atari)游戲訓練中的評估結果。橫坐標表示訓練步驟數(shù)量,縱坐標表示 Elo評分。線代表 AlphaZero(在雅達利游戲中代表人類表現(xiàn)),藍色線代表 MuZero。
基于前向搜索的規(guī)劃算法已經在 AI 領域取得了很大的成功。在圍棋、國際象棋、西洋跳棋、撲克等游戲中,人類世界冠軍一次次被算法打敗。此外,規(guī)劃算法也已經在物流、化學合成等諸多現(xiàn)實世界領域中產生影響。然而,這些規(guī)劃算法都依賴于環(huán)境的動態(tài)變化,如游戲規(guī)則或精確的模擬器,導致它們在機器人學、工業(yè)控制、智能助理等領域中的應用受到。
基于模型的強化學習旨在通過以下步驟解決這一問題:首先學習一個環(huán)境動態(tài)模型,然后根據(jù)所學模型進行規(guī)劃。一般來說,這些模型要么著眼于重建真實的環(huán)境狀態(tài),要么著眼于完整觀察結果的序列。然而,之前的研究在視覺上豐富的領域還遠遠沒有達到 SOTA 水準,如雅達利 2600 游戲。
最受歡迎的方法是基于無模型強化學習的方法,即直接從智能體與環(huán)境的交互中估計優(yōu)化策略和/或價值函數(shù)。但在那些需要精確和復雜前向搜索的領域(如圍棋、國際象棋),這種無模型的算法要遠遠落后于 SOTA。
研究者在57個不同的雅達利游戲中評估了MuZero,發(fā)現(xiàn)該模型在雅達利2600游戲中達到了SOTA表現(xiàn)。此外,他們還在不給出游戲規(guī)則的情況下,在國際象棋、日本將棋和圍棋中對MuZero模型進行了評估,發(fā)現(xiàn)該模型可以匹敵AlphaZero超越人類的表現(xiàn)。而且,在該實驗中,其前輩AlphaZero提前獲知了規(guī)則。
MuZero 算法概覽
MuZero 基于 AlphaZero 強大的搜索和基于搜索的策略迭代算法,但又將一個學習好的模型整合到了訓練步驟中。MuZero 還將 AlphaZero 擴展到了一個更加廣泛的環(huán)境集合,包含單個智能體域和中間時間步上的非零獎勵。
該算法的主要思路是預測那些與規(guī)劃直接相關的未來行為(如下圖 1 所示)。模型將接收到的觀察結果(如圍棋棋盤圖像或雅達利游戲截圖)作為輸入,然后將其轉換為一個隱藏狀態(tài)。接下來,通過一個循環(huán)過程來迭代更新該隱藏狀態(tài),該循環(huán)過程接收前一個隱藏狀態(tài)和假設的下一步操作。
在每一個步驟上,模型會預測策略(如玩的動作)、價值函數(shù)(如預測的贏家)以及即時獎勵。對模型進行端到端訓練的唯一目標是準確估計這三個重要的量,以匹配改進的策略估計和通過搜索及觀察到的獎勵生成的值。
對于隱藏的狀態(tài),沒有直接的約束和要求來捕獲重建原始觀察結果所需的信息,大大減少了模型維護和預測的信息量;也沒有要求隱藏狀態(tài)匹配環(huán)境中未知、真實的狀態(tài);更沒有針對狀態(tài)語義的其他約束。
相反,隱藏狀態(tài)能夠地以任何與預測當前和未來值和策略相關的方式來表示狀態(tài)。直觀地說,智能體可以在內部創(chuàng)建規(guī)則和動態(tài),以實現(xiàn)最精確的規(guī)劃。
圖 1:用一個訓練好的模型進行規(guī)劃、行動和訓練。(A)MuZero 利用其模型進行規(guī)劃的方式;(B)MuZero 在環(huán)境中發(fā)生作用的方式;(C)MuZero 訓練其模型的方式。
MuZero 算法詳解
研究者對 MuZero 算法進行了更詳細的解讀。在每個時間步 t 上、以過往觀察結果 O_1, …, O_t 和未來行為 a_t+1, …, a_t+k 為條件、通過一個具有參數(shù)θ的模型?_θ,為每個 k=1…K 步進行預測。該模型預測三種未來數(shù)量:策略
?
、價值函數(shù)
?
和即時獎勵
?
,其中 u. 表示觀察到的正確獎勵,π表示用來選擇實時行動的策略,γ表示環(huán)境的貼現(xiàn)函數(shù)(discount function)。
在每個時間步 t 上,MuZero 模型由表征函數(shù)、動態(tài)函數(shù)和預測函數(shù)聯(lián)合表征。在本文中,研究者對動態(tài)函數(shù)進行了確切的表征。策略和價值函數(shù)則通過預測函數(shù)
?
并根據(jù)內部狀態(tài) s^k 來計算,這與 AlphaZero 的聯(lián)合策略和價值網(wǎng)絡相似。
給定這樣一個模型,則有可能在基于過往觀察結果 O_1, …, O_t 的情況下查找基于假設的未來軌跡 a^1, …, a^k。例如,一個簡單的搜索可以輕松地選擇最大化價值函數(shù)的 k 步動作序列。更普遍地說,我們或許可以將任何 MDP(馬爾科夫決策過程)規(guī)劃算法應用于由動態(tài)函數(shù)推導出的內部獎勵和狀態(tài)空間。
對于每個假設的時間步 k,模型的所有參數(shù)接受聯(lián)合訓練,從而在 k 個實際的時間步后,對策略、價值和獎勵與它們各自對應的目標值進行精確的匹配。與 AlphaZero 相似,提升后的策略目標通過蒙特卡洛樹(MCTS)搜索生成。第一個目標是最小化預測策略 p^k_t 和搜索策略π_t+k 之間的誤差;第二個目標是最小化預測值 v^k_t 和價值目標 z_t+k 之間的誤差;第三個目標是最小化預測獎勵 r^k_t 和觀察到的獎勵 u_t+k 之間的誤差。最后添加 L2 正則化項,得出以下總損失:
?
實驗結果
在實驗中,研究者將 MuZero 算法應用于圍棋、國際象棋和日本將棋等經典棋盤游戲中,作為挑戰(zhàn)規(guī)劃問題的基準;同時又應用于雅達利游戲環(huán)境中的 57 個游戲,作為視覺復雜強化學習領域的基準。
下圖 2 展示了 MuZero 算法在每個游戲訓練中的性能。在圍棋游戲中,盡管搜索樹中每個節(jié)點的計算量小于 AlphaZero,但 MuZero 的性能依然略微超過 AlphaZero。這表明 MuZero 可能在搜索樹中緩存自身計算,并利用動態(tài)模型的每個附加應用來對位置產生更深的理解。
?
圖 2:MuZero 算法分別在國際象棋、日本將棋、圍棋和雅達利游戲訓練中的評估結果。在國際象棋、日本將棋和圍棋游戲中,橫坐標表示訓練步驟數(shù)量,縱坐標表示 Elo 評分。
?
表 1:雅達利游戲中 MuZero 與先前智能體的對比。研究者分別展示了大規(guī)模(表上部分)和小規(guī)模(表下部分)數(shù)據(jù)設置下 MuZero 與其他智能體的對比結果,表明 MuZero 在平均分、得分中位數(shù)、Env. Frames、訓練時間和訓練步驟五項評估指標(紅框)取得了新的 SOTA 結果。
為了了解 MuZero 中模型的作用,研究者還重點在圍棋和吃豆人雅達利游戲中進行了以下幾項實驗。他們首先在圍棋的典型規(guī)劃問題上測試了規(guī)劃的可擴展性(下圖 3A)。此外,他們還研究了所有雅達利游戲中規(guī)劃的可擴展性(下圖 3B)。接著,他們將自己基于模型的學習算法與其他相似的無模型學習算法進行了比較(下圖 3C)。
?
圖 3:MuZero 在圍棋、57 個雅達利游戲、吃豆人游戲上的評估結果。
(原文來自機器之心編輯部,論文鏈接:網(wǎng)頁鏈接)
聲明:本網(wǎng)頁內容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com