技術(shù)
導(dǎo)讀:11月21日,騰訊“開悟”平臺(tái)宣布正式開放“王者榮耀AI開放研究環(huán)境”申請(qǐng),邁出全面開放的第一步。面向非商業(yè)用途的機(jī)器學(xué)習(xí)算法研究,“開悟”平臺(tái)將提供業(yè)界獨(dú)有的高復(fù)雜度MOBA訓(xùn)練環(huán)境,助力相關(guān)學(xué)術(shù)領(lǐng)域的前沿探索。
11月21日,騰訊“開悟”平臺(tái)宣布正式開放“王者榮耀AI開放研究環(huán)境”申請(qǐng),邁出全面開放的第一步。面向非商業(yè)用途的機(jī)器學(xué)習(xí)算法研究,“開悟”平臺(tái)將提供業(yè)界獨(dú)有的高復(fù)雜度MOBA訓(xùn)練環(huán)境,助力相關(guān)學(xué)術(shù)領(lǐng)域的前沿探索。
最新開放申請(qǐng)的“王者榮耀AI開放研究環(huán)境”,包含了王者榮耀1v1對(duì)戰(zhàn)環(huán)境與baseline算法模型,當(dāng)前支持20位英雄的鏡像對(duì)戰(zhàn)任務(wù)以及非鏡像類對(duì)戰(zhàn)任務(wù),尤其適合研究競(jìng)爭(zhēng)性強(qiáng)化學(xué)習(xí)中的泛化性與通用性問題。
現(xiàn)在,研究者只需在騰訊開悟平臺(tái)官網(wǎng)注冊(cè)賬號(hào)、提交資料并通過平臺(tái)審核,即可免費(fèi)下載王者榮耀1v1測(cè)試環(huán)境gamecore,在本地進(jìn)行AI相關(guān)研究測(cè)試。
據(jù)了解,“王者榮耀AI開放研究環(huán)境”項(xiàng)目發(fā)布以來受到廣泛關(guān)注,今年9月以264星登上Github 月度熱榜,同時(shí),相關(guān)論文已被AI領(lǐng)域的頂級(jí)國(guó)際學(xué)術(shù)會(huì)議 NeurIPS 2022接收。
隨著王者榮耀游戲在持續(xù)運(yùn)營(yíng)中成長(zhǎng)迭代,“開悟”平臺(tái)也將逐步探索并開放更多適用于AI研究的游戲測(cè)試環(huán)境,為AI業(yè)界面臨的“缺乏高挑戰(zhàn)測(cè)試環(huán)境”難題提供全新解決方案。
高復(fù)雜度、高挑戰(zhàn)性的智能體訓(xùn)練環(huán)境
在王者榮耀對(duì)戰(zhàn)中,雙方玩家互為競(jìng)爭(zhēng)關(guān)系,需要收集資源的同時(shí)干擾對(duì)方,以達(dá)到贏得游戲的目的。作為一個(gè)具備多英雄、多玩法的復(fù)雜對(duì)抗游戲,王者榮耀的狀態(tài)、動(dòng)作空間復(fù)雜度比圍棋等游戲高很多,是學(xué)術(shù)屆研究復(fù)雜控制類問題的優(yōu)質(zhì)環(huán)境。
2019年,騰訊AI Lab首次發(fā)布決策智能AI“王者絕悟”的研究論文,介紹在王者榮耀1v1環(huán)境中研究用深度強(qiáng)化學(xué)習(xí)來為智能體預(yù)測(cè)游戲動(dòng)作的方法,該論文被AAAI 2020接收,之后“王者絕悟”陸續(xù)攻克5v5挑戰(zhàn)及全英雄池,在學(xué)術(shù)領(lǐng)域取得多項(xiàng)成就同時(shí),也為王者榮耀玩家?guī)砹恕疤魬?zhàn)絕悟”等創(chuàng)新玩法。
同年,王者榮耀及騰訊AI Lab聯(lián)手打造“開悟”AI開放研究平臺(tái),打造游戲AI產(chǎn)學(xué)研新生態(tài)。如今“開悟”正式開放王者榮耀1v1環(huán)境,并對(duì)環(huán)境進(jìn)行了易用性封裝,提供標(biāo)準(zhǔn)代碼與訓(xùn)練框架,讓個(gè)人用戶在資源允許的情況下可以輕松上手分布式訓(xùn)練。
本次最新開放申請(qǐng)的“王者榮耀AI開放研究環(huán)境”在只考慮雙方英雄選擇條件下,支持400種對(duì)戰(zhàn)子任務(wù),如果算上召喚師技能,將會(huì)有40000種子任務(wù),這對(duì)模型的泛化性有很大挑戰(zhàn),所以尤其適合研究競(jìng)爭(zhēng)性強(qiáng)化學(xué)習(xí)中的泛化性與通用性問題。
進(jìn)一步看,研究模型對(duì)不同任務(wù)的泛化性,對(duì)降低AI在不同領(lǐng)域的應(yīng)用成本至關(guān)重要。例如,面對(duì)測(cè)試環(huán)境中的多個(gè)任務(wù),如何在有限的資源和時(shí)間條件下獲得最好的效果,這其中的研究方法論和成果就可以遷移到其他領(lǐng)域,比如機(jī)器人不同部位的控制等。
“開悟”AI開放研究平臺(tái):助力產(chǎn)學(xué)研共享AI新生態(tài)
“開悟”是騰訊牽頭構(gòu)建的AI多智能體與復(fù)雜決策開放研究平臺(tái),依托騰訊AI Lab和“王者榮耀”在算法、算力、實(shí)驗(yàn)場(chǎng)景方面的核心優(yōu)勢(shì),為學(xué)術(shù)研究人員和算法開發(fā)者開放的國(guó)內(nèi)領(lǐng)先、國(guó)際一流研究與應(yīng)用探索平臺(tái)。
目前,“開悟”也正在持續(xù)助力AI學(xué)界人才培養(yǎng)。2019年至今,“開悟”AI 開放研究平臺(tái)已成功主辦兩屆“開悟多智能體強(qiáng)化學(xué)習(xí)大賽”、承辦了成都大運(yùn)會(huì)“世界大學(xué)生數(shù)智競(jìng)技邀請(qǐng)賽”AI賽道,“以賽促研”為國(guó)內(nèi)外青年研究人才提供測(cè)試及提升AI在復(fù)雜游戲場(chǎng)景下應(yīng)用水平的機(jī)會(huì)。
2021年起,“開悟”先后與北大、清華、中科大等19所國(guó)內(nèi)頭部高校教師團(tuán)隊(duì)聯(lián)合發(fā)起創(chuàng)新課程合作項(xiàng)目,已于多所高校陸續(xù)落地多智能體強(qiáng)化學(xué)習(xí)實(shí)踐課程,幫助學(xué)生通過更有趣的方式掌握機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、多智能體決策等關(guān)鍵知識(shí)點(diǎn)。
基于“開悟”平臺(tái),騰訊將與學(xué)界、業(yè)界攜手,共同利用游戲環(huán)境不斷提升AI能力,并尋找 AI 技術(shù)解決更多問題的可能性,在機(jī)器人、醫(yī)療、工業(yè)、交通等領(lǐng)域發(fā)揮更大作用。
附:論文地址