1997年國(guó)際象棋神話卡斯帕羅夫輸給計(jì)算機(jī)后,圍棋成為人類的最后尊嚴(yán)。在大多數(shù)人看來(lái),計(jì)算機(jī)想要在圍棋領(lǐng)域打敗人類,至少需要十年,甚至更長(zhǎng)的時(shí)間。然而,AlphaGo的出現(xiàn),直接擊碎了這一想法。
2016年,谷歌旗下的DeepMind團(tuán)隊(duì)發(fā)布AlphaGo,并在以4:1的成績(jī)擊敗了世界圍棋冠軍、韓國(guó)棋手李世石,震撼全球。戰(zhàn)勝李世石的這版AlphaGo,參考學(xué)習(xí)了大量的人類專業(yè)棋手的棋譜。此后,AlphaGo又進(jìn)化出了AlphaGo Master版本,并以3:0戰(zhàn)勝了當(dāng)今世界圍棋第一人、中國(guó)棋手柯潔。“功成名就”后,Deepmind公司宣布AlphaGo退役,不再與人類下棋。不過,故事并未結(jié)束。退出人類棋壇、無(wú)敵寂寞的AlphaGo開始了閉關(guān)學(xué)習(xí),進(jìn)行“左右手互博”,從而實(shí)現(xiàn)“挑戰(zhàn)自我”、“戰(zhàn)勝自我”。2017年10月18日,神秘面紗揭開:DeepMind推出了最新版本,也是迄今為止最強(qiáng)版本——AlphaGo Zero。
在DeepMind的最新論文中,AlphaGo Zero利用了強(qiáng)化學(xué)習(xí)的方法,在沒有人類指導(dǎo)的情況下,只用3天時(shí)間進(jìn)行學(xué)習(xí),就打敗了戰(zhàn)勝過李世石的那版AlphaGo,比分是100:0。
2016年3月9日,韓國(guó)首爾,DeepMInd開發(fā)的智能系統(tǒng)AlphaGo(阿爾法圍棋)和韓國(guó)職業(yè)圍棋選手李世石的第一場(chǎng)比賽正式結(jié)束。 視覺中國(guó) 資料圖
在《自然》雜志上為DeepMind論文撰寫的評(píng)論中,密歇根大學(xué)計(jì)算機(jī)科學(xué)和工程學(xué)院教授Satinder Singh寫道,這是強(qiáng)化學(xué)習(xí)轉(zhuǎn)化為應(yīng)用領(lǐng)域里取得的最大進(jìn)步之一。
那么AlphaGo Zero是如何實(shí)現(xiàn)這種飛躍的?前文提到,AlphaGo Zero采用的是人工神經(jīng)網(wǎng)絡(luò)。這種網(wǎng)絡(luò)可以計(jì)算出下一步走棋的可能性,估算出下棋選手贏的概率。隨后根據(jù)計(jì)算,AlphaGo Zero會(huì)選擇最大概率贏的一步去下。整個(gè)訓(xùn)練過程中,并沒有人類參與,全程是AlphaGo Zero自我學(xué)習(xí),自我對(duì)弈。
在訓(xùn)練過程中,AlphaGo Zero每下一步需要思考的時(shí)間是0.4秒。但正是通過對(duì)圍棋游戲的模擬和訓(xùn)練,神經(jīng)網(wǎng)絡(luò)變得越來(lái)越好。值得一提的是,AlphaGo Zero相比之前的版本,僅使用了單一的神經(jīng)網(wǎng)絡(luò)。
新版本的AlphaGo究竟有多厲害?打敗李世石的AlphaGo用了3000萬(wàn)盤比賽作為訓(xùn)練數(shù)據(jù),AlphaGo Zero用了490萬(wàn)盤比賽數(shù)據(jù)。經(jīng)過3天的訓(xùn)練,AlphaGo Zero就以100:0的比分贏下了李世石版AlphaGo,并且只用了1臺(tái)機(jī)器和4個(gè)TPU(谷歌專為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力而研發(fā)的芯片)。而李世石版AlphaGo則用了48個(gè)TPU。
這一切的意義在哪里?AlphaGo的誕生驚艷了世人,現(xiàn)在AlphaGo Zero又將機(jī)器能做到的極限往后推了幾個(gè)量級(jí)。Satinder Singh認(rèn)為,AlphaGo和AlphaGo Zero在一年多時(shí)間里取得的進(jìn)步已經(jīng)證明,基于強(qiáng)化學(xué)習(xí)的人工智能比基于人類知識(shí)經(jīng)驗(yàn)的智能表現(xiàn)地更好。實(shí)際上,AlphaGo Zero將來(lái)很有可能會(huì)幫助人類棋手提高棋藝,并啟發(fā)他們對(duì)圍棋的理解。還有一點(diǎn)也是毋庸置疑的,那就是AlphaGo的成功帶來(lái)了全球媒體對(duì)于人工智能的關(guān)注,也讓圍棋變成流行與美并存的游戲。
美國(guó)圍棋協(xié)會(huì)的Andy Okun和Andrew Jackson也為此次的論文在《自然》雜志上撰寫了評(píng)論,他們認(rèn)為,圍棋人工智能的出現(xiàn),重啟了我們究竟對(duì)圍棋這項(xiàng)游戲了解多少這個(gè)問題。通常一個(gè)世紀(jì)才會(huì)出現(xiàn)一位傳奇的圍棋棋手,他能改變?nèi)祟悓?duì)圍棋的理解。而當(dāng)AlphaGo打敗李世石,Master以60:0的成績(jī)橫掃各國(guó)頂尖棋手,并以3:0贏下柯潔后,關(guān)于人工智能給圍棋帶來(lái)的啟示一直不絕于耳。
這一次,AlphaGo Zero帶來(lái)的進(jìn)步肯定也是圍棋棋手日后學(xué)習(xí)的寶庫(kù)。要知道,AlphaGo Zero是獨(dú)立學(xué)習(xí)訓(xùn)練的,但它使用的招數(shù)卻超越了許多人類棋手的下棋順序和招法。也就說(shuō),人工智能豐富了我們下圍棋的選擇。或許它在下棋過程中有些下法是人類無(wú)法理解的,甚至認(rèn)為是錯(cuò)誤的,但在機(jī)器的理解看來(lái)確實(shí)萬(wàn)分正確的。從這些經(jīng)驗(yàn)中,人類棋手看到了與以往不同的圍棋世界。
“之前,人類與人工智能對(duì)話總是顯得非常遙遠(yuǎn),甚至像科學(xué)小說(shuō)。但現(xiàn)在對(duì)于圍棋選手來(lái)說(shuō),對(duì)話已經(jīng)發(fā)生了,就在這里。” Andy Okun和Andrew Jackson說(shuō)。
免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114中國(guó)通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
新聞熱點(diǎn)
新聞爆料
點(diǎn)擊排行