時隔一年卷土重來 AlphaGo2.0能再續(xù)輝煌嗎?

時隔一年,AlphaGo 將在圍棋的發(fā)源地——中國,迎來它的第二次圍棋世紀對決。

4 月 10 日,雷鋒網從第一線了解了「中國烏鎮(zhèn)·圍棋峰會」的最新動態(tài),中國圍棋協(xié)會、浙江省體育局、谷歌三方共同宣布將在 5 月份聯(lián)合舉辦這一盛會,屆時 AlphaGo 將與柯潔正式對決。而今天,DeepMind 也在官網宣布了 AlphaGo 的下一場征戰(zhàn)。

賽制介紹

根據官網信息,在 5 月 23-27 日,AlphaGo 將進行三種不同形式的比賽,包括:

配對賽:任意兩位棋手(古力、連笑)分別與 AlphaGo 組隊比賽,最大亮點在于從以往的人機純對戰(zhàn)轉變?yōu)槿藱C協(xié)作與另一人類棋手對決,人類又將如何與計算機合作?

團隊賽:由五位中國棋手(時越、羋昱廷、唐韋星、陳耀燁和周睿羊)一同群戰(zhàn) AlphaGo,考驗的是人類的多方協(xié)作是否能做出更好的決策。

常規(guī)挑戰(zhàn)賽:AlphaGo 與柯潔的對弈。

值得一提的是,本次的常規(guī)挑戰(zhàn)賽賽制在去年的基礎上做了不少改進,主要集中于三個方面:

首先最明顯的變化是從原來的五番棋變成了三番棋。

其次是計時方式上,從每方兩小時、另有五次一分鐘讀秒轉變?yōu)槊糠饺r、另有五次一分鐘讀秒。

再者是將常規(guī)賽的時段延長至隔天一局而非原來的一天一局。

一名業(yè)內人士向雷鋒網表示,這樣的機制更能保證人類在充分思考的情況下完成比賽。他指出,在 AlphaGo 化名「Master」在騰訊野狐圍棋平臺橫掃 60 局的不敗神話中,其實有 59 局是每方的 30 秒快棋,而與聶衛(wèi)平對戰(zhàn)一局則是每方 60 秒快棋。「自然,人類在擁有更長時間考慮的情況下,出錯率會更少。人很難避免情緒、心理壓力等因素的干擾,而機器不會?!?/p>

AlphaGo的“修煉大法”

毫無疑問,AlphaGo 對棋局的計算能力遠超人類。Facebook 研究員田淵棟在地平線大牛講堂發(fā)表題為《深度學習如何進行游戲推理?》時也提及了 AlphaGo 所用的神經網絡包括策略網絡和值網絡,主要實現(xiàn)的是兩個方面的功能:

•給出一個局面后,可以決定下哪些位置;

•給出一個關鍵局面時,判斷它們的值,到底是白優(yōu)還是黑優(yōu)。

具體到算法層面,包括 Policy Network(決定下一步怎么走)和 Value Network(決定當前局面分數(shù)多少)兩大神經網絡。此外,在前兩者返回速度比較慢的時候,采用 High quality playout/rollout policy 在微秒級的快速走子預測下一步。

那么這個神經網絡是如何訓練出來的呢?

首先要通過人類棋譜進行訓練,讓神經網絡掌握初步的圍棋章法;其次采用蒙特卡羅樹搜索選擇勝率更高的節(jié)點探索,得到最后的勝負結果后,再回溯剛才探索的過程,并更新路徑上的節(jié)點勝率。

蒙特卡羅樹搜索在保證靈活的前提下,也很容易漏掉一些妙招,因此還需要值網絡的配合,進行自我對弈的「左右互搏」。DeepMind 表示,AlphaGo 是采用了 3000 多萬場這樣的游戲訓練而不斷提升的。它的數(shù)據收集過程是這樣的:

首先讓算法采樣通過監(jiān)督學習學得的策略網絡;

其次通過人為操作更多的棋局形式豐富系統(tǒng)理解棋局的適用面。

而當前棋局在人為操作某一步后,再用強化學習增強的策略網絡計算后續(xù)的下一步招式,并以此得到最后的輸贏結果。完成這個步驟后,系統(tǒng)能夠得到一個當前狀態(tài)到輸贏結果間的樣本點,再以此訓練策略網絡。

根據田老師的演講介紹,目前 AlphaGo 在快速走子的情況下能夠達到 2 微秒的判斷速度,同時也能達到比較好的精確度。

雙方實力對比

去年 3 月,AlphaGo 在以 4:1 戰(zhàn)勝人類棋手李世石后,它將在 2017 年復出,與中國頂尖棋手柯潔對決的傳聞不絕于耳。

不過,諱莫如深的 DeepMind 一度否認這一消息,直至去年 11 月,DeepMind 創(chuàng)始人 Demis Hassabis 才松了口,表示 AlphaGo 近一年來正在提升棋藝水平,將在 2017 年再次挑戰(zhàn)人類棋手。而「職業(yè)陪練」樊麾當時也在同一天證實了這一消息。

而繼李世石之后,人們也將焦點放在了將與 AlphaGo 單挑的柯潔身上。但鑒于去年 AlphaGo 把李世石虐得太慘,導致目前輿論大方向都認為 AlphaGo 會贏得最終的勝利。

三歲開始學棋的柯潔目前等級排名世界第一,DeepMind 評價他「以精湛且善于平衡的棋風為人所稱道,且具有良好的策略性,知道何時要大膽出招,何時要謹慎行事?!?/p>

但在年初的在線圍棋比賽中,柯潔兩局都不敵 AlphaGo 的「Master」,而柯潔在微博了也放言「來啊」,并在賽前預熱會上表示,希望自己能「不惜一切代價去爭取勝利」。

不過不可否認的是,人類要感謝 AI 的地方在于,棋手在博弈的過程中招式也變得更加聰明靈活了。

圍棋,不論是從「起手九式」到「入門必學定式」,雖然強調以不變應萬變,但慣用的招式通常是前輩屢試不爽的必殺,因此誠然值得反復研習。而 AlphaGo 不按常理出牌的招式,看似毫無邏輯,實際上卻是草蛇灰線般的精心謀慮,而這也是圍棋的魅力,也是人機大戰(zhàn)值得關注和追隨的一大亮點。

九段棋手周睿羊在訪談中提及,「你會覺得 AlphaGo 的招式非常自由,而且有著一切皆可能的靈動性?,F(xiàn)在每位棋手都會想著嘗試走一些自己不曾嘗試過的棋法。」AlphaGo 的橫空出世,讓圍棋高手們變得更加聰明了,也更具創(chuàng)造力。

DeepMind想挑戰(zhàn)的,遠不只圍棋

DeepMind 表示,五月份的這次賽事能夠更好地對 AlphaGo 進行探索,了解它是如何在這項古老的游戲中不斷創(chuàng)新的?!付?AlphaGo 背后所隱含的機器學習及人工智能技術,也能夠幫助人類更好地解決全球未來可能面臨的挑戰(zhàn)。」

而就像 DeepMind 創(chuàng)始人 Demis Hassabis 在被 《Nature》評選為“2016年度10大影響力人物”時曾表示,「在圍棋

界的勝利還遠遠不夠。我更想要向世界展示的是,機器學習技術在人類的生產和生活中擁有更強大的潛力,可以幫助人類解決更多棘手的全球性問題?!?/p>

目前,AlphaGo 背后的機器學習技術已經應用于非常多的領域,雷鋒網(公眾號:雷鋒網)此前做過大量的報道和覆蓋,比如:

利用 AI 平衡英國電力供需問題;

與英國國家醫(yī)療服務體系 NHS 旗下基金會 Royal Free London 簽訂了為期五年的合同,致力視網膜研究、訓練 AI 識別健康組織及癌變組織的頭頸部癌癥圖像。

此外,DeepMind 還與母公司谷歌有著密切合作,比如用機器學習技術在 Google Photo 上幫助人們找到圖片中的特定物體;或是提升 Google Translate 的翻譯水平。

DeepMind 表示,「在下一場人機大戰(zhàn)中,我們對它可能帶來的討論及影響感到興奮非常,而所帶來的挑戰(zhàn)也能夠帶給我們更多的啟發(fā)——不論是圍棋,還是其它的領域?!棺屛覀円煌诖逶碌?AlphaGo 世界之戰(zhàn),雷鋒網也將持續(xù)關注。

極客網企業(yè)會員

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2017-04-13
時隔一年卷土重來 AlphaGo2.0能再續(xù)輝煌嗎?
中國圍棋協(xié)會、浙江省體育局、谷歌三方共同宣布將在 5 月份聯(lián)合舉辦這一盛會,屆時 AlphaGo 將與柯潔正式對決。而今天,DeepMind 也在官網宣布了 A

長按掃碼 閱讀全文