2017年10月19日,谷歌子公司DeepMind發(fā)布了AlphaGo的新版本。很多人知道AlpoaGo是一個(gè)人工智能程序,卻不知道它其實(shí)是一個(gè)家族,早期戰(zhàn)勝韓國(guó)選手李世石的是AlphaGo Lee。在烏鎮(zhèn)擊敗世界冠軍柯潔的是AlphaGo Master。本次發(fā)布的是AlphaGo Zero(阿爾法零),它經(jīng)過3天的訓(xùn)練便以100:0的戰(zhàn)績(jī)擊敗了他的哥哥AlphoGo Lee,經(jīng)過40天的訓(xùn)練便擊敗了它的另一個(gè)哥哥AlphoGo Master。
AlphaGo Zero與之前版本相比,最大的區(qū)別在于,它不再依靠人類的指導(dǎo)來成長(zhǎng),即之前的AlphaGo Lee是依賴于人工錄入的大量棋譜來幫助其學(xué)習(xí)如何下棋,說白了,它是在人的指導(dǎo)下學(xué)習(xí),可以理解為是人類千年圍棋經(jīng)驗(yàn)教出的學(xué)生。
而AlphaGo Zero使用了強(qiáng)化學(xué)習(xí)算法,即不再依賴任何棋譜,編程人員輸入圍棋基本規(guī)則后,不再進(jìn)行任何教導(dǎo),完全由其自己進(jìn)行摸索,總結(jié)走棋方法,相當(dāng)于人工智能完全按照自己的方法學(xué)習(xí)。AlphaGo Lee完敗于摒棄了人類經(jīng)驗(yàn)的AlphaGo Zero,這說明人類的經(jīng)驗(yàn)可能誤導(dǎo)了AlphaGo Lee,進(jìn)而了它的發(fā)展。
AlphaGo Zero的行棋方式在開局和收官階段,與人類選手有較大的相似之處,而盤中的行棋風(fēng)格的確與人類選手和之前版本的AlPhaGo有較大不同,而正是這種不同讓其可以在100次與AlphaGo Lee的交戰(zhàn)中立于不敗,換個(gè)說法,如果當(dāng)初AlphaGo Lee沒有拜人類為師,而是向機(jī)器學(xué)習(xí),那么對(duì)于擁有更強(qiáng)計(jì)算能力的AlphaGo Lee來說,勝負(fù)還未可知。
除了零經(jīng)驗(yàn)學(xué)習(xí)外,AlphaGo Zero的另一大特點(diǎn)是將之前版本AlphaGo的兩個(gè)神經(jīng)網(wǎng)絡(luò)融為一體,在之前版本的AlphaGo上,如何走棋是由“策略網(wǎng)絡(luò)”和“價(jià)值網(wǎng)絡(luò)”兩個(gè)神經(jīng)網(wǎng)絡(luò)來計(jì)算如何行棋的,即首先由“策略網(wǎng)絡(luò)”利用之前累積的經(jīng)驗(yàn),判斷在當(dāng)前棋型下哪些位置適合行棋,之后由“價(jià)值網(wǎng)絡(luò)”對(duì)在這些位置行棋后的種種可能進(jìn)行模擬,計(jì)算勝率,最終選擇出行棋位置。
而AlphaGo Zero將二者融為了一體,對(duì)之前兩個(gè)網(wǎng)絡(luò)的特征提取等模塊進(jìn)行了共用,可以在計(jì)算出可能行棋的位置時(shí)便給出相應(yīng)的“勝率”,大幅提高效率,減少了訓(xùn)練所需的時(shí)間。這也是AlphaGo Zero在訓(xùn)練了三天就打敗了訓(xùn)練了幾個(gè)月的AlphaGo Lee的主要原因之一。
人工智能不僅是計(jì)算機(jī)科學(xué)領(lǐng)域發(fā)展的制高點(diǎn),在所有行業(yè)都具有無限潛力和應(yīng)用價(jià)值,目前世界各國(guó)普遍看好,人工智能技術(shù)將成長(zhǎng)為下一次技術(shù)契機(jī)。即便最終人工智能沒有達(dá)到級(jí)別的顛覆程度,AI已經(jīng)在逐漸改變我們的生活。
以往人工智能的進(jìn)步都是建立在軟件與硬件同步發(fā)展的基礎(chǔ)上,神經(jīng)網(wǎng)絡(luò)算法最早在上個(gè)世紀(jì)中葉就被提出,然而受限于計(jì)算能力,神經(jīng)網(wǎng)絡(luò)算法一直發(fā)展緩慢。
之后隨著硬件計(jì)算速度的不斷提高,已有的軟件算法不斷被實(shí)現(xiàn)并改進(jìn),改進(jìn)的算法對(duì)硬件要求更高,從而進(jìn)一步促進(jìn)了硬件的發(fā)展,而AlphaGo Zero的出現(xiàn)完全建立在算法更新的基礎(chǔ)上。
前一版本的AlphaGo需要在48個(gè)TPU(谷歌專為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力而研發(fā)的芯片,一塊成本即達(dá)500萬美元)上進(jìn)行幾個(gè)月學(xué)習(xí),而AlphaGo Zero只需要4個(gè)TPU加上幾天的時(shí)間便可完成學(xué)習(xí)。這種零經(jīng)驗(yàn)學(xué)習(xí)能力非常適合在蛋白質(zhì)折疊和其它缺少樣本的醫(yī)療領(lǐng)域進(jìn)行應(yīng)用,可以很好地解決因缺少試驗(yàn)樣本而導(dǎo)致研究進(jìn)展緩慢的問題。未來的相關(guān)研究中完全可以輸入規(guī)則后利用AlphaGo Zero的能力進(jìn)行模擬,最后利用有限的樣本進(jìn)行驗(yàn)證即可。
AlphaGo逐漸升級(jí)之路
故事講到這里,實(shí)在不得不佩服谷歌深厚的技術(shù)實(shí)力與精明的商業(yè)頭腦。AlphaGo從誕生伊始,就得到了deepmind團(tuán)隊(duì)的精心包裝,仔細(xì)回想起來,可謂是“城里套路深”。
從最初戰(zhàn)勝低段位職業(yè)棋手開始預(yù)熱或者說炒作,到戰(zhàn)勝人類頂尖高手李世石,AlphaGo的登場(chǎng)已經(jīng)足夠華麗。不過4比1的比分還是給了人類一線希望,這僅有的勝局中,李世石劍走偏鋒,直接把AlphaGo出了“大腦短路”的癥狀,可見此時(shí)AlphaGo雖已經(jīng)足夠強(qiáng)大,但尚不完美。此后各路人類高手開始臥薪嘗膽,精研AlphaGo的套路,寄希望于重新捍衛(wèi)人類尊嚴(yán)。
隨后,一個(gè)神秘的“master”在圍棋界頂級(jí)棋手的對(duì)戰(zhàn)平臺(tái)上取得了60勝0負(fù)的驕人戰(zhàn)績(jī),這位master到底是何方神圣,是人是妖可謂是賺足了吃瓜群眾的眼球。直到華麗的60勝達(dá)成,謎底才最終揭曉。
此后便是吸引了全世界目光的烏鎮(zhèn)對(duì)決,AlphaGo Master把柯潔打到毫無還手之力。雖然柯潔已經(jīng)表現(xiàn)出了真正的人類最強(qiáng)者戰(zhàn)力,卻仍然被AlphaGo完全壓制,只要出招有任何一點(diǎn)閃失,立刻會(huì)陷入AlphaGo“最小優(yōu)勢(shì)勝”策略的陷阱,再無翻身余地。
烏鎮(zhèn)對(duì)決之后,人類在圍棋領(lǐng)域已經(jīng)徹底甘拜下風(fēng),別說柯潔一人,五大高手聯(lián)手作戰(zhàn)比柯潔輸?shù)酶?,AlphaGo一時(shí)風(fēng)光無限。
如今,烏鎮(zhèn)硝煙剛要散盡,谷歌又搞了個(gè)大新聞出來!人工智能在摒棄人類經(jīng)驗(yàn)后,用三天時(shí)間自學(xué)的AlphaGo Zero打敗了人類幾千年的經(jīng)驗(yàn)。AlphaGo的進(jìn)化版打敗了原始版,不禁叫人想起《鐵甲鋼拳》里叫人熱血賁張的機(jī)甲肉搏,一個(gè)AI輸給另一個(gè)更牛的AI,中國(guó)AI戰(zhàn)勝美國(guó)AI,這很有可能是未來棋類競(jìng)技中的真實(shí)場(chǎng)景。
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。TEL:0731-84117792 E-MAIL:11247931@qq.com