導(dǎo)讀:更大的規(guī)模不一定更適合機(jī)器學(xué)習(xí)。
更大的規(guī)模不一定更適合機(jī)器學(xué)習(xí)。但是,隨著研究人員相互競爭追求最先進(jìn)的基準(zhǔn),深度學(xué)習(xí)模型和訓(xùn)練它們的數(shù)據(jù)集不斷擴(kuò)展。不管它們?nèi)绾瓮黄疲蟮哪P投紩?huì)對預(yù)算和環(huán)境產(chǎn)生嚴(yán)重的影響。比如 GPT-3,一個(gè)在去年夏天推出的大受歡迎的自然語言處理模型,據(jù)說花了 1200 萬美元 用于訓(xùn)練。更有甚者,馬薩諸塞大學(xué)阿默斯特分校(UMass Amherst)的 研究人員發(fā)現(xiàn),訓(xùn)練大型人工智能模型所需的計(jì)算能力能夠產(chǎn)生 60 多萬磅的二氧化碳排放——是普通汽車壽命周期排放量的 5 倍。
目前,沒有跡象表明,以機(jī)器學(xué)習(xí)行業(yè)的發(fā)展速度,計(jì)算密集型工作將會(huì)放緩。OpenAI 的研究顯示,深度學(xué)習(xí)模型的計(jì)算能力在 2012 到 2018 年間增長了驚人的 30 萬倍,超過了摩爾定律。這個(gè)問題不僅僅是訓(xùn)練這些算法,而是要在生產(chǎn)環(huán)境下運(yùn)行它們,或者說在推理階段。對很多團(tuán)隊(duì)而言,由于純粹的成本和資源的限制,深度學(xué)習(xí)模型的實(shí)際應(yīng)用仍然遙不可及。
幸好,研究人員發(fā)現(xiàn)了一些新的方法來縮小深度學(xué)習(xí)模型,并通過更智能的算法來優(yōu)化訓(xùn)練數(shù)據(jù)集,使得模型在生產(chǎn)環(huán)境下運(yùn)行得更快,計(jì)算量也更少。就連業(yè)界的一個(gè)峰會(huì)也專門討論低功耗、微型機(jī)器學(xué)習(xí)。剪枝(Purning)、優(yōu)化(Quantization)和遷移學(xué)習(xí)(Transfer Learning)就是三種具體的技術(shù)。這些技術(shù)可以讓那些無法投資數(shù)百萬美元把模型轉(zhuǎn)換成生產(chǎn)環(huán)境的組織實(shí)現(xiàn)機(jī)器學(xué)習(xí)的民主化。對“邊緣”用例來說,這一點(diǎn)尤為重要,因?yàn)榇笮蛯S萌斯ぶ悄苡布谖锢砩喜⒉磺袑?shí)際。
第一種技術(shù),即剪枝,是近幾年來研究的熱點(diǎn)之一。包含“深度壓縮”(Deep Compression)和“彩票假說”(Lottery Ticket Hypothesis)在內(nèi)的高引用文獻(xiàn)表明,可以在不損失正確性的情況下消除神經(jīng)網(wǎng)絡(luò)中“神經(jīng)元”之間一些不必要的連接,有效地使模型更小、更容易在資源有限的設(shè)備上運(yùn)行。最新的論文 進(jìn)一步驗(yàn)證并完善了早期的技術(shù),以開發(fā)出更小的模型,使其達(dá)到更高的速度和正確度。對某些模型,比如 ResNet,可以在不影響正確性的情況下剪枝 90% 左右。
第二種技術(shù),即優(yōu)化,也正在逐步普及。優(yōu)化 涉及許多不同的技術(shù),它們可以將大的輸入值轉(zhuǎn)換為小的輸出值。換句話來說,在硬件上運(yùn)行神經(jīng)網(wǎng)絡(luò)可以產(chǎn)生上百萬次乘和加運(yùn)算。減少這些數(shù)學(xué)運(yùn)算的復(fù)雜性有助于減少內(nèi)存需求和計(jì)算成本,這將大大提高性能。
最后,雖然這不是一種縮小模型的技術(shù),但是 遷移學(xué)習(xí) 能夠在有限的數(shù)據(jù)中幫助訓(xùn)練一個(gè)新模型。遷移學(xué)習(xí)以預(yù)訓(xùn)練模型作為起點(diǎn)。通過有限的數(shù)據(jù)集,模型的知識可以“遷移”到一個(gè)新的任務(wù)中,而無需從頭再來訓(xùn)練原始模型。在訓(xùn)練模型時(shí),這是一種減少計(jì)算能力、能源和資金的重要方法。
最重要的啟示是,模型可以(也應(yīng)該)盡可能地優(yōu)化,使其在較少的計(jì)算量下運(yùn)行。在不犧牲性能和正確性的情況下,尋找減小模型大小和相關(guān)計(jì)算能力的方法將是機(jī)器學(xué)習(xí)的下一大突破。
如果能有更多人在生產(chǎn)環(huán)境中低成本地使用深度學(xué)習(xí)模型,我們就能真正看到現(xiàn)實(shí)世界中創(chuàng)新的新應(yīng)用。這些應(yīng)用可以在任何地方運(yùn)行,甚至是在最小的設(shè)備上,以達(dá)到做出即使決定所需的速度和正確性?;蛟S,小型模型最好的效果是整個(gè)行業(yè)能夠減少其環(huán)境硬件,而不是每六年增加 30 萬倍。
作者介紹:
Sasa Zelenovic,Neural Magiic 團(tuán)隊(duì)成員,幫助數(shù)據(jù)科學(xué)家發(fā)現(xiàn)開源、廉價(jià)的硬件加速器替代品,以實(shí)現(xiàn)深度學(xué)習(xí)性能。
https://www.datasciencecentral.com/profiles/blogs/honey-i-shrunk-the-model-why-big-machine-learning-models-must-go