當(dāng)前位置：首頁 - 養(yǎng)生常識(shí) - 正文

100：0，新AlphaGo放棄了人類？

來源：懂視網(wǎng) 責(zé)編：小OO 時(shí)間：2020-05-08 22:52:41

導(dǎo)讀2017年10月19日，谷歌子公司DeepMind發(fā)布了AlphaGo的新版本。很多人知道AlpoaGo是一個(gè)人工智能程序，卻不知道它其實(shí)是一個(gè)家族，早期戰(zhàn)勝韓國(guó)選手李世石的是AlphaGo Lee。在烏鎮(zhèn)擊敗世界冠軍柯潔的是AlphaGo Master。本次發(fā)布的是AlphaGo Zero（阿爾法零），它經(jīng)過3天的訓(xùn)練便以100：0的戰(zhàn)績(jī)擊敗了他的哥哥AlphoGo Lee，經(jīng)過40天的訓(xùn)練便擊敗了它的另一個(gè)哥哥AlphoGo Master。AlphaGo Zero與之前版本相比，最大的區(qū)別在...

2017年10月19日，谷歌子公司DeepMind發(fā)布了AlphaGo的新版本。很多人知道AlpoaGo是一個(gè)人工智能程序，卻不知道它其實(shí)是一個(gè)家族，早期戰(zhàn)勝韓國(guó)選手李世石的是AlphaGo Lee。在烏鎮(zhèn)擊敗世界冠軍柯潔的是AlphaGo Master。本次發(fā)布的是AlphaGo Zero（阿爾法零），它經(jīng)過3天的訓(xùn)練便以100：0的戰(zhàn)績(jī)擊敗了他的哥哥AlphoGo Lee，經(jīng)過40天的訓(xùn)練便擊敗了它的另一個(gè)哥哥AlphoGo Master。

AlphaGo Zero與之前版本相比，最大的區(qū)別在于，它不再依靠人類的指導(dǎo)來成長(zhǎng)，即之前的AlphaGo Lee是依賴于人工錄入的大量棋譜來幫助其學(xué)習(xí)如何下棋，說白了，它是在人的指導(dǎo)下學(xué)習(xí)，可以理解為是人類千年圍棋經(jīng)驗(yàn)教出的學(xué)生。

而AlphaGo Zero使用了強(qiáng)化學(xué)習(xí)算法，即不再依賴任何棋譜，編程人員輸入圍棋基本規(guī)則后，不再進(jìn)行任何教導(dǎo)，完全由其自己進(jìn)行摸索，總結(jié)走棋方法，相當(dāng)于人工智能完全按照自己的方法學(xué)習(xí)。AlphaGo Lee完敗于摒棄了人類經(jīng)驗(yàn)的AlphaGo Zero，這說明人類的經(jīng)驗(yàn)可能誤導(dǎo)了AlphaGo Lee，進(jìn)而了它的發(fā)展。

AlphaGo Zero的行棋方式在開局和收官階段，與人類選手有較大的相似之處，而盤中的行棋風(fēng)格的確與人類選手和之前版本的AlPhaGo有較大不同，而正是這種不同讓其可以在100次與AlphaGo Lee的交戰(zhàn)中立于不敗，換個(gè)說法，如果當(dāng)初AlphaGo Lee沒有拜人類為師，而是向機(jī)器學(xué)習(xí)，那么對(duì)于擁有更強(qiáng)計(jì)算能力的AlphaGo Lee來說，勝負(fù)還未可知。

除了零經(jīng)驗(yàn)學(xué)習(xí)外，AlphaGo Zero的另一大特點(diǎn)是將之前版本AlphaGo的兩個(gè)神經(jīng)網(wǎng)絡(luò)融為一體，在之前版本的AlphaGo上，如何走棋是由“策略網(wǎng)絡(luò)”和“價(jià)值網(wǎng)絡(luò)”兩個(gè)神經(jīng)網(wǎng)絡(luò)來計(jì)算如何行棋的，即首先由“策略網(wǎng)絡(luò)”利用之前累積的經(jīng)驗(yàn)，判斷在當(dāng)前棋型下哪些位置適合行棋，之后由“價(jià)值網(wǎng)絡(luò)”對(duì)在這些位置行棋后的種種可能進(jìn)行模擬，計(jì)算勝率，最終選擇出行棋位置。

而AlphaGo Zero將二者融為了一體，對(duì)之前兩個(gè)網(wǎng)絡(luò)的特征提取等模塊進(jìn)行了共用，可以在計(jì)算出可能行棋的位置時(shí)便給出相應(yīng)的“勝率”，大幅提高效率，減少了訓(xùn)練所需的時(shí)間。這也是AlphaGo Zero在訓(xùn)練了三天就打敗了訓(xùn)練了幾個(gè)月的AlphaGo Lee的主要原因之一。

人工智能不僅是計(jì)算機(jī)科學(xué)領(lǐng)域發(fā)展的制高點(diǎn)，在所有行業(yè)都具有無限潛力和應(yīng)用價(jià)值，目前世界各國(guó)普遍看好，人工智能技術(shù)將成長(zhǎng)為下一次技術(shù)契機(jī)。即便最終人工智能沒有達(dá)到級(jí)別的顛覆程度，AI已經(jīng)在逐漸改變我們的生活。

以往人工智能的進(jìn)步都是建立在軟件與硬件同步發(fā)展的基礎(chǔ)上，神經(jīng)網(wǎng)絡(luò)算法最早在上個(gè)世紀(jì)中葉就被提出，然而受限于計(jì)算能力，神經(jīng)網(wǎng)絡(luò)算法一直發(fā)展緩慢。

之后隨著硬件計(jì)算速度的不斷提高，已有的軟件算法不斷被實(shí)現(xiàn)并改進(jìn)，改進(jìn)的算法對(duì)硬件要求更高，從而進(jìn)一步促進(jìn)了硬件的發(fā)展，而AlphaGo Zero的出現(xiàn)完全建立在算法更新的基礎(chǔ)上。

前一版本的AlphaGo需要在48個(gè)TPU(谷歌專為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力而研發(fā)的芯片，一塊成本即達(dá)500萬美元)上進(jìn)行幾個(gè)月學(xué)習(xí)，而AlphaGo Zero只需要4個(gè)TPU加上幾天的時(shí)間便可完成學(xué)習(xí)。這種零經(jīng)驗(yàn)學(xué)習(xí)能力非常適合在蛋白質(zhì)折疊和其它缺少樣本的醫(yī)療領(lǐng)域進(jìn)行應(yīng)用，可以很好地解決因缺少試驗(yàn)樣本而導(dǎo)致研究進(jìn)展緩慢的問題。未來的相關(guān)研究中完全可以輸入規(guī)則后利用AlphaGo Zero的能力進(jìn)行模擬，最后利用有限的樣本進(jìn)行驗(yàn)證即可。

AlphaGo逐漸升級(jí)之路

故事講到這里，實(shí)在不得不佩服谷歌深厚的技術(shù)實(shí)力與精明的商業(yè)頭腦。AlphaGo從誕生伊始，就得到了deepmind團(tuán)隊(duì)的精心包裝，仔細(xì)回想起來，可謂是“城里套路深”。

從最初戰(zhàn)勝低段位職業(yè)棋手開始預(yù)熱或者說炒作，到戰(zhàn)勝人類頂尖高手李世石，AlphaGo的登場(chǎng)已經(jīng)足夠華麗。不過4比1的比分還是給了人類一線希望，這僅有的勝局中，李世石劍走偏鋒，直接把AlphaGo出了“大腦短路”的癥狀，可見此時(shí)AlphaGo雖已經(jīng)足夠強(qiáng)大，但尚不完美。此后各路人類高手開始臥薪嘗膽，精研AlphaGo的套路，寄希望于重新捍衛(wèi)人類尊嚴(yán)。

隨后，一個(gè)神秘的“master”在圍棋界頂級(jí)棋手的對(duì)戰(zhàn)平臺(tái)上取得了60勝0負(fù)的驕人戰(zhàn)績(jī)，這位master到底是何方神圣，是人是妖可謂是賺足了吃瓜群眾的眼球。直到華麗的60勝達(dá)成，謎底才最終揭曉。

此后便是吸引了全世界目光的烏鎮(zhèn)對(duì)決，AlphaGo Master把柯潔打到毫無還手之力。雖然柯潔已經(jīng)表現(xiàn)出了真正的人類最強(qiáng)者戰(zhàn)力，卻仍然被AlphaGo完全壓制，只要出招有任何一點(diǎn)閃失，立刻會(huì)陷入AlphaGo“最小優(yōu)勢(shì)勝”策略的陷阱，再無翻身余地。

烏鎮(zhèn)對(duì)決之后，人類在圍棋領(lǐng)域已經(jīng)徹底甘拜下風(fēng)，別說柯潔一人，五大高手聯(lián)手作戰(zhàn)比柯潔輸?shù)酶?，AlphaGo一時(shí)風(fēng)光無限。

如今，烏鎮(zhèn)硝煙剛要散盡，谷歌又搞了個(gè)大新聞出來！人工智能在摒棄人類經(jīng)驗(yàn)后，用三天時(shí)間自學(xué)的AlphaGo Zero打敗了人類幾千年的經(jīng)驗(yàn)。AlphaGo的進(jìn)化版打敗了原始版，不禁叫人想起《鐵甲鋼拳》里叫人熱血賁張的機(jī)甲肉搏，一個(gè)AI輸給另一個(gè)更牛的AI，中國(guó)AI戰(zhàn)勝美國(guó)AI，這很有可能是未來棋類競(jìng)技中的真實(shí)場(chǎng)景。

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。TEL:0731-84117792 E-MAIL:11247931@qq.com