您現在的位置是:首頁 > 娛樂

阿爾法狗從首演到退役的25個月:超越人類成為“圍棋之神”

由 澎湃新聞 發表于 娛樂2022-07-23
簡介北京時間2016年3月9日下午3點31分,韓國首爾,谷歌旗下人工智慧公司DeepMInd開發的智慧系統AlphaGo(阿爾法圍棋)和韓國職業圍棋選手李世石九段的第一場比賽正式結束

阿爾法圍棋誰打敗的

圍棋,最早據說是秦始皇為指導他兒子發明的。它的規則簡單有限:棋分黑白,執黑子棋手先下,使用棋子在19*19的網格棋盤來圈地盤,最後誰在棋盤上佔的地盤多,誰就獲勝。

但在看似簡單的規則背後,圍棋實際上是一項非常講究策略的博弈遊戲。在至今2千多年的發展歷史中,縱然偶有佼佼者出現,但都未達到“圍棋之神”的境界。

直到2015年,一個名為AlphaGo的計算機程式橫空出世,大殺四方。

在短短25個月的時間裡(2015年10月,AlphaGo正式公開與人類對弈),AlphaGo斬落了中日韓的頂尖圍棋高手,不斷地挑戰了人類對圍棋的認知,讓人大開眼界,歎為觀止。人類棋手更是經歷了難以置信、震驚、震撼,再到最後轉為拜它為師,奉之為“圍棋之神”的過程。

如今,AlphaGo教學工具上線,更多的人可以透過它來學習下圍棋。從挑戰人類,到無人能及,再到回饋人類, AlphaGo的使命已經完成。那麼它是如何走到這一步,對人類圍棋歷史又做出了什麼樣的貢獻?

從備受輕視到驚豔世人

2015年年末,歐洲圍棋冠軍、職業圍棋二段樊麾在接到DeepMind的邀請,希望他能到倫敦與計算機程式下棋時,他想得非常簡單,也很有自信。樊麾那時的自信不是沒有道理。即便1997年,IBM用暴力演算法贏下國際象棋第一人卡斯帕羅夫後,人類仍堅信圍棋這項古老的遊戲,對於計算機而言還有很長的路要走。

因為在19*19的棋盤上,可走的粗略的數目估計為10^170。它大概是我們可見宇宙中所有原子總和(大概在10^80的數量級)的100倍那麼多。在圍棋數百回合中,任一回合大約有250種下法,也被稱為分支因子。因為選擇其中任一種下法又將會出現250種可能的下法,以此往復直到遊戲結束。這意味著圍棋是無法採取數學意義上的暴力演算法。

另外,每位圍棋選手都知道,圍棋區域性小的戰術可能在後面的對弈中會產生巨大的戰略影響。圍棋還有足夠多的定式,圍棋選手會說到一些特徵,例如梯子、牆和假眼,這些都是從規則中有機演化出來的,而不是規則規定的。同時,圍棋也很講究選手在下棋時的氣勢,這些對於冰冷的機器而言,很難掌握。

要解決上面這些難題,至少在AlphaGo出現前,人們認為至少需要10年的研究。只是這一次,人類真的低估AlphaGo了。

在5盤的對弈中,樊麾很快敗下陣來,而且輸得讓他不忍看賽後媒體對他的評價。不過,很快地,作為第一個真正感受到AlphaGo實力的人,樊麾加入了DeepMind團隊,一起為提升它的技能努力。

2016年1月份,《自然》雜誌發表了DeepMind關於AlphaGo的第一篇論文,重點闡述瞭如何透過神經網路和蒙特卡洛樹搜尋讓計算機程式掌握下圍棋的方法。這篇文章引起的波瀾不小,但更多人願意討論的是,當時DeepMind宣佈,將在3月份,挑戰圍棋職業九段、韓國棋手李世石。

阿爾法狗從首演到退役的25個月:超越人類成為“圍棋之神”

北京時間2016年3月9日下午3點31分,韓國首爾,谷歌旗下人工智慧公司DeepMInd開發的智慧系統AlphaGo(阿爾法圍棋)和韓國職業圍棋選手李世石九段的第一場比賽正式結束。 本文圖片均為視覺中國 資料圖

“圍棋是這個世界上歷史最悠久的桌遊,最簡單,也最抽象。人工智慧長久以來面臨的一項挑戰,就是擊敗專業圍棋選手。我們在人工智慧中嘗試過的所有方法,都無法解決圍棋問題。棋盤上可能的排列組合,比宇宙中的原子數還多。但AlphaGo學會了下圍棋。到目前為止,AlphaGo完成了所有我們設計的挑戰。但在它對陣當時最強的棋手,比如李世石之前,我們還無從瞭解它的真正實力。”這是《AlphaGo》紀錄片在回顧這場對決前的描述。

確實,關於這場比賽,包括中國圍棋界在內,很多人對李世石抱有更多的信心。即便在李世石輸掉前2局比賽後,當今世界圍棋第一人柯潔仍對人類信心十足,他在自己的微博上寫到:“就算阿爾法狗戰勝了李世石,但它贏不了我”。最終的比分定格在4:1,如果不是第四盤,李世石下出 “神來一手”,抓住AlphaGo的漏洞,比分可能會更懸殊。

挑落職業棋手,AlphaGo引來了全球的關注。DeepMind稱,全球有2000萬觀眾透過電視直播觀看了它與李世石的比賽。直播後,關於人工智慧、神經網路、深度學習的討論熱鬧非凡,人工智慧浪潮也由此展開。正是因為輸掉了李世石一盤棋,AlphaGo獲得了韓國棋院頒發的“職業九段”證書,世界排名上甚至一度超越柯潔排在第一位。

如果說贏下李世石讓世人震驚外,那麼AlphaGo接下去的進步和發展,只能用震撼來形容。2017年1月份,AlphaGo換上“Master”的馬甲,潛伏野狐圍棋平臺,直接以60:0的戰績橫掃了中日韓頂尖的棋手。在不到1年的時間裡,AlphaGo正如它的新名稱一樣,真正成為了圍棋大師,也開始朝著“圍棋之神”的方向前進。

柯潔對AlphaGo的態度也有了180度的轉變。“我們兩年前總以為AI計算力強,現在發現是大局觀、宏偉藍圖更強,壓制我們,遠遠領先我們人類,令我非常震撼。”他在微博上說到。

阿爾法狗從首演到退役的25個月:超越人類成為“圍棋之神”

2017年5月27日,浙江烏鎮,2017AlphaGo Vs 柯潔大賽第三局。

同年5月,柯潔與AlphaGo約戰烏鎮,比賽結果並沒有出人意料,柯潔0:3輸掉了比賽。在最接近擊敗阿爾法狗的第二盤比賽後,柯潔哭了,他說他以為自己有機會擊敗它了,他有了情緒,但沒有控制住,而坐在他對面的AlphaGo卻一直冷靜、穩定。這樣的對比,不知道對於人類來說,是幸事還是不幸。與柯潔的三盤比賽也成為了AlphaGo與人類對戰的絕唱。隨後,DeepMind宣佈AlphaGo退役。

但退役並不意味著AlphaGo停止進步,相反它還在以人類難以企及的速度學習。

今年10月,《自然》雜誌釋出DeepMind的第二篇論文。這一次AlphaGo的進步可以說到了讓人驚豔的地步。DeepMind推出了最強版AlphaGo ,代號AlphaGo Zero,而它是“自學成才”。即從一張白紙開始,零基礎學習,在短短3天內,就成為頂級高手。在對陣曾贏下韓國棋手李世石那版AlphaGo時,AlphaGo Zero取得了100:0的壓倒性戰績。

不以人類為師,又能無師自通,AlphaGo “圍棋之神”由此誕生。

取得無數勝績後,AlphaGo選擇將自己所學授予人類,12月11日晚間,AlphaGo教學工具上線。柯潔第一時間表示人類可以重新學圍棋了。

從以人為師到無師自通

用如此短的時間就研究透了擁有幾千年歷史的圍棋,AlphaGo的“神蹟”讓人驚歎。回顧成名史,經過了多個版本升級的它,實際上離不開背後的技術和硬體支撐。而這一切或許得從2014年的那筆收購開始。2014年1月,谷歌以4億英鎊的價格收購了DeepMind。

在這之前,DeepMind的辦公樓位於倫敦市國王十字車站的潘克拉斯廣場7號, 從建築外牆看,你根本不會發現這裡竟然孕育著未來會改變圍棋發展的科技公司。谷歌的收購改變了DeepMind公司的命運,也推動了AlphaGo專案的進展。

據DeepMind的高階研究員,AlphaGo團隊的領導成員之一黃士傑回憶,在谷歌收購前,這個專案總共只有3個人,即創始人戴密斯·哈薩比斯(Demis Hassabis)、大衛·席爾瓦(Dave Sliver)和他本人。

得到谷歌的加持,AlphaGo團隊迅速得到了擴張。更重要的是, AlphaGo團隊在硬體和資料訓練上得到了巨大的支援。因為深度學習與這兩樣東西密不可分:足夠多的處理單元及足夠多的可供學習的資料。

先來看看AlphaGo這個系統主要的構成部分。根據DeepMind在2016年《自然》雜誌上發表的論文,AlphaGo的成功主要依靠以下幾個方面:1。 走棋網路(Policy Network),給定當前局面,預測/取樣下一步的走棋。2。 快速走子(Fast rollout),目標和1一樣,但在適當犧牲走棋質量的條件下,速度要比1快1000倍。3。 估值網路(Value Network),給定當前局面,估計是白勝還是黑勝。4。 蒙特卡羅樹搜尋(Monte Carlo Tree Search,MCTS),把以上這三個部分連起來,形成一個完整的系統。

有了系統構成或者說計算模型後,就需要資料輸入。據瞭解,打敗李世石的版本,DeepMind用了3000萬棋譜樣本來訓練機器,這些棋譜來自業餘和職業選手聚集下棋的線上伺服器。另外AlphaGo還透過自己互相對弈,進行微調,從而能快速產生更多的訓練資料。

深度學習網路貢獻地快速學習能力,幫助AlphaGo打敗了李世石。到哪結束與李世石的比賽後,DeepMind追求極限的目標仍再繼續。

從Master到對戰柯潔,這一時期,AlphaGo又完成了三大升級:首先,AlphaGo大師版擯棄人類棋譜,單純向AlphaGo李版的經驗學習;其次,AlphaGo大師版的計算量只有AlphaGo李版的十分之一,只需在單個TPU機器上執行;最後,AlphaGo大師版擁有更強大的策略網路和價值網路。

這裡需要特別指出的是TPU的作用,這是谷歌專門為加速深層神經網路運算能力而研發的晶片,它的使用讓AlphaGo在硬體上有了很大的提升。

據席爾瓦介紹,這次升級後,AlphaGo的系統做了簡化降低搜尋樹寬度的策略網路和降低搜尋樹深度的價值網路,但效能卻得到了提升。

AlphaGo李版首先運用策略網路進行深度學習,將大量人類棋譜輸入其中,根據人類經驗排除掉搜尋樹上一部分的分杈。也就是說,雖然圍棋當前的每一步都有上百種可能性,但根據人類經驗,只有一部分是好的選擇,AlphaGo只需要搜尋這些分杈,另一些根本就是“臭棋”。

同時,AlphaGo也不需要在這些分杈上一路搜尋到底,模擬到棋盤結束才知道當前這步棋的優劣。在當前某個特定的選擇往下,AlphaGo只模擬幾步,就能得出一個分數。這個數值越大,AlphaGo獲勝的機率就越高。

接著,在強化學習中,AlphaGo就可以根據策略網路推薦的走法自我對弈,左右互搏,在經過反覆自我訓練,積累了大量資料之後,AlphaGo就能更快地對當前走法的勝率有一個概念。

策略網路和價值網路配合形成的深度強化學習,能讓AlphaGo更“聰明”地計算。

也是從這裡開始,AlphaGo開始不再以人為師,而是在深度學習環節,使用的大量訓練資料進行自我對弈。AlphaGo也因此開啟了無人能敵的進階之路。

今年10月份,DeepMind對外推出了最強版AlphaGo,代號AlphaGo Zero。這一次,AlphaGo Zero用了490萬盤比賽資料。經過3天的訓練,AlphaGo Zero就以100:0的比分贏下了李世石版AlphaGo,並且只用了1臺機器和4個TPU。相比之下,李世石版AlphaGo則用了48個TPU。

在《自然》雜誌上為DeepMind論文撰寫的評論中,密歇根大學計算機科學和工程學院教授Satinder Singh寫道,這是強化學習轉化為應用領域裡取得的最大進步之一。

從改變圍棋到改變生活

AlphaGo和AlphaGo Zero取得的進步已經證明,基於強化學習的人工智慧比基於人類知識經驗的智慧表現地更好。12月11日,AlphaGo還推出了教學工具,旨在幫助公眾能用新的、創新方式下圍棋。

“圍棋人工智慧的出現,重啟了人類究竟對圍棋這項遊戲瞭解多少這個問題。”美國圍棋協會的Andy Okun和Andrew Jackson在《自然》雜誌上曾這樣評價AlphaGo給圍棋界帶來的改變。通常一個世紀才會出現一位傳奇的圍棋棋手,他能改變人類對圍棋的理解。而當AlphaGo打敗李世石,Master以60:0的成績橫掃各國頂尖棋手,並以3:0贏下柯潔後,關於人工智慧給圍棋帶來的啟示一直不絕於耳。

顯然,AlphaGo帶來的進步肯定也是圍棋棋手日後學習的寶庫。要知道,AlphaGo Zero是獨立學習訓練的,但它使用的招數卻超越了許多人類棋手的下棋順序和招法。也就說,人工智慧豐富了我們下圍棋的選擇。或許它在下棋過程中有些下法是人類無法理解的,甚至認為是錯誤的,但在機器的理解看來確實萬分正確的。從這些經驗中,人類棋手看到了與以往不同的圍棋世界。

包括柯潔、古力等多位職業圍棋九段棋手已經多次在自己的個人微博賬號上表示了AlphaGo對他們帶來的啟發。尤其是在AlphaGo教學工具上線後,柯潔第一時間轉發評論到:“重新學圍棋”。世界圍棋冠軍、職業九段棋手常昊認為:“教學工具不一定是標準答案,更多的是給予了我們無限的思考空間。”曾為烏鎮人機大戰選手之一、職業九段棋手周睿羊則表示:“定式什麼的還是不要隨便學了,看到工具一些高階下法之後感覺到又可以起飛了。”

“之前,人類與人工智慧對話總是顯得非常遙遠,甚至像科學小說。但現在對於圍棋選手來說,對話已經發生了,就在這裡。” Andy Okun和Andrew Jackson說。

但改變圍棋並不是AlphaGo的最終目的,DeepMind創始人戴密斯·哈薩比斯(Demis Hassabis)曾在多個場合提到過,自己成立公司主要是想用人工智慧技術改變我們的生活。

而他們確實在這樣做,至少在醫療領域已經開始行動。目前,他們與倫敦帝國理工學院英國癌症研究中心領導的健康研究機構,以及Google的人工智慧健康研究團隊共同合作,用機器學習技術對抗乳腺癌。在此之前,它們還曾宣佈與英國國家醫療服務體系(NHS)合作,為其開發患者健康風險警告系統。

“最終,我們想要將這些技術應用到真實世界的重要問題中。因為我們用的方法是通用的,我們希望有一天,它們能延伸得更廣,幫助解決最緊迫的社會問題,從醫藥診斷到環境模型。”哈薩比斯說。

推薦文章