懂視移動端 視頻1 視頻21 視頻41 視頻61 視頻文章1 視頻文章21 視頻文章41 視頻文章61 推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37 推薦39 推薦41 推薦43 推薦45 推薦47 推薦49 關鍵詞1 關鍵詞101 關鍵詞201 關鍵詞301 關鍵詞401 關鍵詞501 關鍵詞601 關鍵詞701 關鍵詞801 關鍵詞901 關鍵詞1001 關鍵詞1101 關鍵詞1201 關鍵詞1301 關鍵詞1401 關鍵詞1501 關鍵詞1601 關鍵詞1701 關鍵詞1801 關鍵詞1901 視頻擴展1 視頻擴展6 視頻擴展11 視頻擴展16 文章1 文章201 文章401 文章601 文章801 文章1001 資訊1 資訊501 資訊1001 資訊1501 標簽1 標簽501 標簽1001 關鍵詞1 關鍵詞501 關鍵詞1001 關鍵詞1501
問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
當前位置: 首頁 - 養(yǎng)生常識 - 正文

通用AlphaGo誕生?MuZero在多種棋類游戲中超越人類

來源:懂視網(wǎng) 責編:小OO 時間:2020-05-08 22:52:41
導讀DeepMind的一項研究提出了MuZero算法,該算法在不具備任何底層動態(tài)知識的情況下,通過結合基于樹的搜索和學得模型,在雅達利2600游戲中達到了SOTA表現(xiàn),在國際象棋、日本將棋和圍棋的精確規(guī)劃任務中可以匹敵AlphaZero,甚至超過了提前得知規(guī)則的圍棋版AlphaZero。MuZero 算法在國際象棋、日本將棋、圍棋和雅達利(Atari)游戲訓練中的評估結果。橫坐標表示訓練步驟數(shù)量,縱坐標表示 Elo評分。黃色線代表 AlphaZero(在雅達利游戲中代表人類表現(xiàn)),藍色線代表 MuZ...

DeepMind的一項研究提出了MuZero算法,該算法在不具備任何底層動態(tài)知識的情況下,通過結合基于樹的搜索和學得模型,在雅達利2600游戲中達到了SOTA表現(xiàn),在國際象棋、日本將棋和圍棋的精確規(guī)劃任務中可以匹敵AlphaZero,甚至超過了提前得知規(guī)則的圍棋版AlphaZero。

MuZero 算法在國際象棋、日本將棋、圍棋和雅達利(Atari)游戲訓練中的評估結果。橫坐標表示訓練步驟數(shù)量,縱坐標表示 Elo評分。線代表 AlphaZero(在雅達利游戲中代表人類表現(xiàn)),藍色線代表 MuZero。

基于前向搜索的規(guī)劃算法已經在 AI 領域取得了很大的成功。在圍棋、國際象棋、西洋跳棋、撲克等游戲中,人類世界冠軍一次次被算法打敗。此外,規(guī)劃算法也已經在物流、化學合成等諸多現(xiàn)實世界領域中產生影響。然而,這些規(guī)劃算法都依賴于環(huán)境的動態(tài)變化,如游戲規(guī)則或精確的模擬器,導致它們在機器人學、工業(yè)控制、智能助理等領域中的應用受到。

基于模型的強化學習旨在通過以下步驟解決這一問題:首先學習一個環(huán)境動態(tài)模型,然后根據(jù)所學模型進行規(guī)劃。一般來說,這些模型要么著眼于重建真實的環(huán)境狀態(tài),要么著眼于完整觀察結果的序列。然而,之前的研究在視覺上豐富的領域還遠遠沒有達到 SOTA 水準,如雅達利 2600 游戲。

最受歡迎的方法是基于無模型強化學習的方法,即直接從智能體與環(huán)境的交互中估計優(yōu)化策略和/或價值函數(shù)。但在那些需要精確和復雜前向搜索的領域(如圍棋、國際象棋),這種無模型的算法要遠遠落后于 SOTA。

研究者在57個不同的雅達利游戲中評估了MuZero,發(fā)現(xiàn)該模型在雅達利2600游戲中達到了SOTA表現(xiàn)。此外,他們還在不給出游戲規(guī)則的情況下,在國際象棋、日本將棋和圍棋中對MuZero模型進行了評估,發(fā)現(xiàn)該模型可以匹敵AlphaZero超越人類的表現(xiàn)。而且,在該實驗中,其前輩AlphaZero提前獲知了規(guī)則。

MuZero 算法概覽

MuZero 基于 AlphaZero 強大的搜索和基于搜索的策略迭代算法,但又將一個學習好的模型整合到了訓練步驟中。MuZero 還將 AlphaZero 擴展到了一個更加廣泛的環(huán)境集合,包含單個智能體域和中間時間步上的非零獎勵。

該算法的主要思路是預測那些與規(guī)劃直接相關的未來行為(如下圖 1 所示)。模型將接收到的觀察結果(如圍棋棋盤圖像或雅達利游戲截圖)作為輸入,然后將其轉換為一個隱藏狀態(tài)。接下來,通過一個循環(huán)過程來迭代更新該隱藏狀態(tài),該循環(huán)過程接收前一個隱藏狀態(tài)和假設的下一步操作。

在每一個步驟上,模型會預測策略(如玩的動作)、價值函數(shù)(如預測的贏家)以及即時獎勵。對模型進行端到端訓練的唯一目標是準確估計這三個重要的量,以匹配改進的策略估計和通過搜索及觀察到的獎勵生成的值。

對于隱藏的狀態(tài),沒有直接的約束和要求來捕獲重建原始觀察結果所需的信息,大大減少了模型維護和預測的信息量;也沒有要求隱藏狀態(tài)匹配環(huán)境中未知、真實的狀態(tài);更沒有針對狀態(tài)語義的其他約束。

相反,隱藏狀態(tài)能夠地以任何與預測當前和未來值和策略相關的方式來表示狀態(tài)。直觀地說,智能體可以在內部創(chuàng)建規(guī)則和動態(tài),以實現(xiàn)最精確的規(guī)劃。

圖 1:用一個訓練好的模型進行規(guī)劃、行動和訓練。(A)MuZero 利用其模型進行規(guī)劃的方式;(B)MuZero 在環(huán)境中發(fā)生作用的方式;(C)MuZero 訓練其模型的方式。

MuZero 算法詳解

研究者對 MuZero 算法進行了更詳細的解讀。在每個時間步 t 上、以過往觀察結果 O_1, …, O_t 和未來行為 a_t+1, …, a_t+k 為條件、通過一個具有參數(shù)θ的模型?_θ,為每個 k=1…K 步進行預測。該模型預測三種未來數(shù)量:策略

?

、價值函數(shù)

?

和即時獎勵

?

,其中 u. 表示觀察到的正確獎勵,π表示用來選擇實時行動的策略,γ表示環(huán)境的貼現(xiàn)函數(shù)(discount function)。

在每個時間步 t 上,MuZero 模型由表征函數(shù)、動態(tài)函數(shù)和預測函數(shù)聯(lián)合表征。在本文中,研究者對動態(tài)函數(shù)進行了確切的表征。策略和價值函數(shù)則通過預測函數(shù)

?

并根據(jù)內部狀態(tài) s^k 來計算,這與 AlphaZero 的聯(lián)合策略和價值網(wǎng)絡相似。

給定這樣一個模型,則有可能在基于過往觀察結果 O_1, …, O_t 的情況下查找基于假設的未來軌跡 a^1, …, a^k。例如,一個簡單的搜索可以輕松地選擇最大化價值函數(shù)的 k 步動作序列。更普遍地說,我們或許可以將任何 MDP(馬爾科夫決策過程)規(guī)劃算法應用于由動態(tài)函數(shù)推導出的內部獎勵和狀態(tài)空間。

對于每個假設的時間步 k,模型的所有參數(shù)接受聯(lián)合訓練,從而在 k 個實際的時間步后,對策略、價值和獎勵與它們各自對應的目標值進行精確的匹配。與 AlphaZero 相似,提升后的策略目標通過蒙特卡洛樹(MCTS)搜索生成。第一個目標是最小化預測策略 p^k_t 和搜索策略π_t+k 之間的誤差;第二個目標是最小化預測值 v^k_t 和價值目標 z_t+k 之間的誤差;第三個目標是最小化預測獎勵 r^k_t 和觀察到的獎勵 u_t+k 之間的誤差。最后添加 L2 正則化項,得出以下總損失:

?

實驗結果

在實驗中,研究者將 MuZero 算法應用于圍棋、國際象棋和日本將棋等經典棋盤游戲中,作為挑戰(zhàn)規(guī)劃問題的基準;同時又應用于雅達利游戲環(huán)境中的 57 個游戲,作為視覺復雜強化學習領域的基準。

下圖 2 展示了 MuZero 算法在每個游戲訓練中的性能。在圍棋游戲中,盡管搜索樹中每個節(jié)點的計算量小于 AlphaZero,但 MuZero 的性能依然略微超過 AlphaZero。這表明 MuZero 可能在搜索樹中緩存自身計算,并利用動態(tài)模型的每個附加應用來對位置產生更深的理解。

?

圖 2:MuZero 算法分別在國際象棋、日本將棋、圍棋和雅達利游戲訓練中的評估結果。在國際象棋、日本將棋和圍棋游戲中,橫坐標表示訓練步驟數(shù)量,縱坐標表示 Elo 評分。

?

表 1:雅達利游戲中 MuZero 與先前智能體的對比。研究者分別展示了大規(guī)模(表上部分)和小規(guī)模(表下部分)數(shù)據(jù)設置下 MuZero 與其他智能體的對比結果,表明 MuZero 在平均分、得分中位數(shù)、Env. Frames、訓練時間和訓練步驟五項評估指標(紅框)取得了新的 SOTA 結果。

為了了解 MuZero 中模型的作用,研究者還重點在圍棋和吃豆人雅達利游戲中進行了以下幾項實驗。他們首先在圍棋的典型規(guī)劃問題上測試了規(guī)劃的可擴展性(下圖 3A)。此外,他們還研究了所有雅達利游戲中規(guī)劃的可擴展性(下圖 3B)。接著,他們將自己基于模型的學習算法與其他相似的無模型學習算法進行了比較(下圖 3C)。

?

圖 3:MuZero 在圍棋、57 個雅達利游戲、吃豆人游戲上的評估結果。

(原文來自機器之心編輯部,論文鏈接:網(wǎng)頁鏈接)

聲明:本網(wǎng)頁內容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

標簽: 鴨脖
  • 熱門焦點

最新推薦

猜你喜歡

熱門推薦

100:0,新AlphaGo放棄了人類? 這是迄今為止,AlphaGo算法最清晰的解讀! AlphaGo的神奇全靠它,詳解人工神經網(wǎng)絡! 谷雨節(jié)氣常識中祭海習俗的意義,講究的是什么? 華為手機如何調夜間模式 手機wifi限速如何設置,如何解除wifi網(wǎng)速 100m寬帶速度速度很慢是什么原因 lol難以獲取玩家信息如何解決 饑荒巖石巢穴如何用 使用釘釘上直播課后如何查看學生的聽課情況 關于南瓜先生2九龍城寨第三章城北圖文攻略 關于c語言三個數(shù)求最大值_輸入三個數(shù)求最大值c語言 如何在電腦上用韓劇tv 微信怎么設置獨立密碼 如何連接網(wǎng)絡機頂盒與電視? win10沒響度均衡如何解決 steam如何隱身玩游戲 如何隱藏正在游戲狀態(tài) office 2013最新激活密鑰 及破解激活方法 刺激戰(zhàn)場訓練場煙霧彈在什么地方找到 怎么處理程序運行時經常出現(xiàn)程序未響應的問題? 人機大戰(zhàn)四周年:圍棋界發(fā)生了哪些巨變? 暑去秋來,秋燥來襲,養(yǎng)生從“每天多睡1小時”開始 處暑到,要變天,12個養(yǎng)生常識幫你踩下秋涼急剎車~ 處暑養(yǎng)生:常吃一湯二粥三瓜,謹記四注意五坑! 舌尖上的處暑:蓮藕、南瓜、馬蹄、銀耳,每樣都能做出新意 處暑送鴨,無病各家,經典老鴨湯配方獻上 油膩了一個夏天,8款處暑養(yǎng)生食譜幫助你清理腸胃 明日處暑!這些防秋燥美食保你滋潤一整個秋天~ 今天處暑用這個方子告別夏天!補對了不長肉,還健康 天氣干燥,晝熱夜涼,寒露清秋,教你這樣保持心懷暖陽 寒露養(yǎng)生4步曲,從衣食住行4方面令你安度“多事之秋” “白露身不露,寒露腳不露” 看中醫(yī)傳承下來的時令養(yǎng)生 長壽老人養(yǎng)生經驗:寒露前后吃八寶粥、八寶茶、八寶飯 寒露養(yǎng)生,除了保暖防寒,養(yǎng)陰潤燥也要注重精神愉悅 寒露少吃一種瓜,多吃四種白,為過冬打好身體基礎 美寒露美食養(yǎng)生,這道清燉羊肉千萬別錯過 寶媽寒露節(jié)氣食譜,清甜爽滑,還強身暖胃,寶寶增強體質就靠它 只知平安夜送蘋果,知道蘋果要當晚吃掉嗎? 圣誕頌歌《平安夜》的誕生地是哪里?! 平安夜的習俗大全,平安夜都可以參加哪些習俗?
Top