騰訊AI“王者絕悟”亮相世界人工智能大會 展現(xiàn)“AI+游戲”全新可能

7月8日,騰訊“王者絕悟”亮相2021世界人工智能大會,該產(chǎn)品由騰訊AI Lab與王者榮耀聯(lián)合推出,展現(xiàn)了AI在人類生活場景的想象力。“王者絕悟”與職業(yè)電競選手展開了一場精彩的表演賽,展示了騰訊在多智能體博弈等前沿AI課題上的先進研究水準。

騰訊公司董事會主席、首席執(zhí)行官馬化騰在大會上表示,“這次我們帶來王者榮耀的AI電競賽,希望讓大家欣賞到最高水平的AI競技,同時激發(fā)青年人對‘通用AI’的研究興趣。”

表演賽上,重慶QGhappy.Hurt、成都AG超玩會.無痕、武漢eStarPro. 諾言、深圳DYG.小義,以及辰鬼等5名職業(yè)選手,與“王者絕悟”進行BO5對戰(zhàn)。

“王者絕悟”掌握全英雄池,全召喚師技能,無任何限制與數(shù)值加成。“王者絕悟”和職業(yè)玩家在視野和操作反應上是公平的,后臺統(tǒng)計結(jié)果顯示,王者絕悟APM(Action per Minute,每分鐘操作次數(shù))低于職業(yè)選手均值。

表演賽區(qū)域同時開放體驗展區(qū),向觀眾普及了AI技術(shù)在多元場景中的廣泛應用價值。不少觀眾體驗后表示:“雖然曾經(jīng)在游戲里和王者絕悟有過切磋,但是經(jīng)過現(xiàn)場不少行業(yè)人士的分析和解說后,還是重新認識到王者絕悟,并且理解到其并不只是一個簡單的游戲?qū)κ?rdquo;。

絕悟AI技術(shù)再進化:自學習能力的演進

此次亮相的“王者絕悟”是掌握游戲中全部100多個英雄玩法的“完全體”版本。要精通王者榮耀這款MOBA(多人在線戰(zhàn)術(shù)競技)游戲,“王者絕悟”背后是天文數(shù)字級的計算量。

一方面,100多個英雄組成5人隊伍,就有多達10的15次方種可能性;另一方面,AI要操作不同技能、裝備的不同英雄,在對局中面臨策略規(guī)劃、目標選擇、技能應用、路徑探索及團隊協(xié)作等大量即時的選擇,其操作可能性預計高達10的20000次方。

在王者榮耀對局中,AI的動作狀態(tài)空間遠遠大于圍棋及其他簡單游戲,甚至超過整個宇宙的原子總數(shù)(10的80次方)。如此龐大的運算空間里,要做高效準確的決策,對算法的挑戰(zhàn)巨大。

絕悟AI背后的技術(shù),主要涉及監(jiān)督學習和強化學習兩大領(lǐng)域。監(jiān)督學習通過海量有標記的訓練數(shù)據(jù)為基礎(chǔ),推導出行為預測函數(shù)。這個方法的優(yōu)點在于能夠模擬不同級別的目標行為,做到很好的擬人化;缺點在于過度依賴于數(shù)據(jù),特別是標注數(shù)據(jù)的質(zhì)量。強化學習通過構(gòu)建獎勵和懲罰刺激環(huán)境的角度出發(fā),優(yōu)化AI行為邏輯。這個方法的優(yōu)點在不依賴已有數(shù)據(jù)并且能夠探索出新的策略,甚至于超越當前人類的認知。

“王者絕悟”的能力演進經(jīng)過了多次迭代:

騰訊AI“王者絕悟”亮相世界人工智能大會 展現(xiàn)“AI+游戲”全新可能

2018年12月,“王者絕悟”對陣玩家高手隊的5v5測試。這一版本通過監(jiān)督學習方法,模擬學習了職業(yè)選手的操作,達到頂尖業(yè)余水平。

2019年,隨著在深度強化學習、多智能體決策課題上研究不斷深入,“王者絕悟”不再需要模仿人類數(shù)據(jù),而是通過自己和自己對戰(zhàn),進一步提升微操水平和大局觀,達到了王者榮耀職業(yè)電競水平。

2020年,“王者絕悟”通過課程學習方式,學會了更多英雄玩法;5月,它用40個英雄池首次接受玩家們的挑戰(zhàn)。

在本次亮相的完全體版本中,王者絕悟進一步引入了多輪組合博弈和層次化的強化學習算法。也就是在競技比賽的局前和局內(nèi),都做了針對性優(yōu)化,提升它的整體能力和戰(zhàn)術(shù)對抗水平。

在局前BP環(huán)節(jié)(Ban and Pick,禁止對方使用的英雄和選擇本方使用的英雄),王者絕悟既會考慮當前對局雙方陣容的勝率,也會更長遠地為后續(xù)對局“留招”,最大化多輪比賽的勝率。

在局內(nèi),通過自我博弈學習同時提升宏觀戰(zhàn)術(shù)策略和具體微操水平。在保持高強度微操能力的情況下,對不同的敵方戰(zhàn)術(shù)策略,如五人抱團、四一分推、野區(qū)入侵等戰(zhàn)術(shù),做出更加合理的應對。

“王者絕悟”的演進,代表著騰訊在復雜策略與多智能體博弈課題研究上的先進技術(shù)水平;同時,也推動著行業(yè)在攻克“通用人工智能難題”上,又向前邁進了一步。

面向未來:AI贏了比賽,人類贏得未來

21世紀初,以 Deepmind、OpenAI 等為代表的一系列人工智能公司將由大數(shù)據(jù)和深度學習方法引領(lǐng)的又一輪人工智能浪潮推向巔峰。游戲也給計算機技術(shù)的前沿研究提供了大量的實驗場景和驅(qū)動力,出現(xiàn)了一個良性循環(huán)的狀態(tài)。

事實上,AI的目的并不是要在游戲里戰(zhàn)勝人類,而是通過越來越復雜的游戲訓練,最終解決現(xiàn)實生活中的問題。

自2018年初次亮相電競賽場以來,絕悟AI在對局中飛速成長,王者榮耀游戲機制高復雜度、高挑戰(zhàn)性、強協(xié)作性等特征,滿足了對高水平AI的研究需要,并且得到了國際認可,絕悟AI相關(guān)論文已先后被AAAI、NeurIPS等AI頂級會議收錄。

騰訊 AI Lab還同步推進了多類“AI+游戲”研究。棋牌類AI“絕藝”,四奪圍棋AI世界冠軍、擔任中國國家圍棋隊專用AI,并進一步探索棋力極限,讓職業(yè)棋手2子取得200連勝。絕藝從圍棋的完全信息博弈到不完全信息博弈的棋牌類研究亦取得階段性進展,獲 IJCAI 2020麻將AI比賽冠軍。

策略協(xié)作型AI絕悟也正從王者峽谷走向更多類型游戲。在足球游戲中,絕悟Wekick版本獲谷歌Kaggle 11v11足球AI競賽世界冠軍。在RTS游戲中,在星際爭霸2里打敗“開掛”內(nèi)置 AI 的智能體;在FPS射擊類游戲中,著力解決3D環(huán)境建模、感知實現(xiàn)視角的轉(zhuǎn)換和移動尋人等難題,先是奪得了VizDoom AI競賽歷史上首個中國區(qū)冠軍,后在FPS AI上線手游《穿越火線-槍戰(zhàn)王者(CFM)》中廣獲好評。

未來,騰訊AI研究還將有更多場景和應用。對于不少研究人員和開發(fā)者來說,多智能體技術(shù)研究依然存在顯著的現(xiàn)實困難,包括環(huán)境的不確定性、信息獲取的局限性、個體目標與全局目標的一致性,以及對高算力的要求。

基于此,2019年8月,王者榮耀、騰訊 AI Lab攜手共建“開悟”AI開放平臺,打造利用王者榮耀與騰訊AI Lab核心技術(shù)構(gòu)建的,對使用者低成本的多智能體人工智能算法研究、教學和驗證的科研教學平臺,助力打通產(chǎn)學研聯(lián)盟通路。

長遠來看,AI+游戲研究將是騰訊攻克 AI 終極研究難題——通用人工智能(AGI)的關(guān)鍵一步。AGI 代表研發(fā)能在通用系統(tǒng)中執(zhí)行多種復雜命令,達到或超越人類水平的 AI ,從絕藝到絕悟,不斷讓 AI 從0到1去學習進化,并發(fā)展出一套合理的行為模式,這中間的經(jīng)驗、方法與結(jié)論,長期來看,有望在大范圍內(nèi),如醫(yī)療、制造、無人駕駛、農(nóng)業(yè)到智慧城市管理等領(lǐng)域帶來更深遠影響。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )