技術(shù)
導(dǎo)讀:與傳統(tǒng)AI相比,大模型擁有成百上千倍“神經(jīng)元”數(shù)量,且預(yù)先學(xué)習(xí)過海量知識(shí),表現(xiàn)出像人類一樣“舉一反三”的學(xué)習(xí)能力。
在人工智能前沿領(lǐng)域,中國(guó)AI實(shí)現(xiàn)突破。
11月8日,阿里巴巴達(dá)摩院公布多模態(tài)大模型M6最新進(jìn)展,其參數(shù)已從萬(wàn)億躍遷至10萬(wàn)億,規(guī)模遠(yuǎn)超谷歌、微軟此前發(fā)布的萬(wàn)億級(jí)模型,成為全球最大的AI預(yù)訓(xùn)練模型。
同時(shí),M6做到了業(yè)內(nèi)極致的低碳高效,使用512 GPU在10天內(nèi)即訓(xùn)練出具有可用水平的10萬(wàn)億模型。
相比去年發(fā)布的大模型GPT-3,M6實(shí)現(xiàn)同等參數(shù)規(guī)模,能耗僅為其1%。
M6是達(dá)摩院研發(fā)的通用性人工智能大模型,擁有多模態(tài)、多任務(wù)能力,其認(rèn)知和創(chuàng)造能力超越傳統(tǒng)AI,尤其擅長(zhǎng)設(shè)計(jì)、寫作、問答,在電商、制造業(yè)、文學(xué)藝術(shù)、科學(xué)研究等領(lǐng)域有廣泛應(yīng)用前景。
與傳統(tǒng)AI相比,大模型擁有成百上千倍“神經(jīng)元”數(shù)量,且預(yù)先學(xué)習(xí)過海量知識(shí),表現(xiàn)出像人類一樣“舉一反三”的學(xué)習(xí)能力。
因此,大模型被普遍認(rèn)為是未來(lái)的“基礎(chǔ)模型”,將成下一代AI基礎(chǔ)設(shè)施。然而,其算力成本相當(dāng)高昂,訓(xùn)練1750億參數(shù)語(yǔ)言大模型GPT-3所需能耗,相當(dāng)于汽車行駛地月往返距離。
今年5月,通過專家并行策略及優(yōu)化技術(shù),達(dá)摩院M6團(tuán)隊(duì)將萬(wàn)億模型能耗降低超八成、效率提升近11倍。
10月,M6再次突破業(yè)界極限,通過更細(xì)粒度的CPU offload、共享-解除算法等創(chuàng)新技術(shù),讓收斂效率進(jìn)一步提升7倍,這使得模型規(guī)模擴(kuò)大10倍的情況下,能耗未顯著增加。
這一系列突破極大降低了大模型研究門檻,讓一臺(tái)機(jī)器訓(xùn)練出一個(gè)千億模型成為可能。
同時(shí),達(dá)摩院聯(lián)合阿里云推出了M6服務(wù)化平臺(tái),為大模型訓(xùn)練及應(yīng)用提供完備工具,首次讓大模型實(shí)現(xiàn)“開箱即用”,算法人員及普通用戶均可方便地使用平臺(tái)。
達(dá)摩院還推出了當(dāng)前最大規(guī)模的中文多模態(tài)評(píng)測(cè)數(shù)據(jù)集MUGE,覆蓋圖文描述、文本生成圖像、跨模態(tài)檢索任務(wù),填補(bǔ)了缺少中文多模態(tài)權(quán)威評(píng)測(cè)基準(zhǔn)的空白。
作為國(guó)內(nèi)首個(gè)商業(yè)化落地的多模態(tài)大模型,M6已在超40個(gè)場(chǎng)景中應(yīng)用,日調(diào)用量上億。
今年,大模型首次支持雙11。M6在犀牛智造為品牌設(shè)計(jì)的服飾已在淘寶上線;憑借流暢的寫作能力,M6正為天貓?zhí)摂M主播創(chuàng)作劇本;依靠多模態(tài)理解能力,M6正在增進(jìn)淘寶、支付寶等平臺(tái)的搜索及內(nèi)容認(rèn)知精度。
M6生成的未來(lái)感汽車圖
達(dá)摩院智能計(jì)算實(shí)驗(yàn)室負(fù)責(zé)人周靖人表示,“接下來(lái),我們將深入研究大腦認(rèn)知機(jī)理,致力于將M6的認(rèn)知力提升至接近人類的水平,比如,通過模擬人類跨模態(tài)的知識(shí)抽取和理解方式,構(gòu)建通用的人工智能算法底層框架;另一方面,不斷增強(qiáng)M6在不同場(chǎng)景中的創(chuàng)造力,產(chǎn)生出色的應(yīng)用價(jià)值?!?/p>
據(jù)了解,達(dá)摩院語(yǔ)言大模型PLUG近期也已升級(jí)至2萬(wàn)億參數(shù),成為全球最大中文語(yǔ)言模型,其所屬AliceMind語(yǔ)言模型體系同樣推出了服務(wù)化平臺(tái)。