導(dǎo)讀:你看好數(shù)字人嗎?
你看好數(shù)字人嗎?
這個問題在今天似乎頗難回答。如果從宏觀趨勢上看,數(shù)字人的利好要素似乎已經(jīng)達到了一個空前的高度。比如有市場分析機構(gòu)預(yù)測,到2026年中國AI數(shù)字人的市場規(guī)模將突破100億人民幣,整體市場呈現(xiàn)高速增長態(tài)勢。又比如今年7月,北京發(fā)布了《北京市促進數(shù)字人產(chǎn)業(yè)創(chuàng)新發(fā)展行動計劃(2022-2025年)》(以下簡稱《行動計劃》),這意味著數(shù)字人產(chǎn)業(yè)迎來了中國首個專項支持政策?!缎袆佑媱潯分猩踔撂岬?,到2025年北京市數(shù)字人產(chǎn)業(yè)規(guī)模突破500億元。
但如果我們從微觀上看,又會發(fā)現(xiàn)數(shù)字人的發(fā)展與應(yīng)用并不是一帆風順的。今年雙11,大量商家開始放棄使用數(shù)字人;很多企業(yè)、機構(gòu)的數(shù)字人員工、虛擬偶像,在發(fā)布之后就杳無音訊;數(shù)字人解決方案報價太高、維護太貴的聲音不絕于耳;很多投入了大量宣發(fā)資源,被寄予厚望的數(shù)字人項目,極短時間內(nèi)就喪失了流量。
如果說,數(shù)字人在2020年末到2021年,高速完成了從技術(shù)孵化到教育市場的創(chuàng)生期,那么在目前階段,數(shù)字人則恰好處在從產(chǎn)業(yè)鏈搭建到大規(guī)模應(yīng)用轉(zhuǎn)化的過渡期。這個階段,雖然整體市場依舊被看好。但從產(chǎn)業(yè)鏈到應(yīng)用場景、接受情況中的一系列問題也暴露了出來。數(shù)字人市場,開始不能用簡單的“好”與“不好”來評判。
速生速死,極限拉扯的數(shù)字人,不免讓我們想起一本書——莫言的《生死疲勞》。
莫言說,人活著就是要疲勞。今天我們可以說,不光是人,數(shù)字人想要活著,也挺疲勞。
生于直播
討論數(shù)字人的現(xiàn)狀,我們必須先達成一個共識:什么是數(shù)字人?
一般來說,數(shù)字人是指具有擬人或者真人外貌、行為和特點的虛擬人物。這里的重點在于,今天很多人已經(jīng)默認數(shù)字人是具有TTS語音合成、多輪對話、語義理解技術(shù)特征,由AI驅(qū)動的虛擬形象。但在整個產(chǎn)業(yè)發(fā)展的實際脈絡(luò)來看,數(shù)字人長期以來都跟AI技術(shù)關(guān)系不大,或者只使用了比較初級的AI技術(shù),比如語音合成。
最早的數(shù)字人,基本都是以虛擬偶像等方式出現(xiàn)的。就像初音未來、洛天依等等,基本是由動畫設(shè)計+語音合成來實現(xiàn)。這時的數(shù)字人大多是作為展示,缺乏互動性,并且門檻很高,難以普及推廣。
接下來,隨著直播行業(yè)的發(fā)展,大量由真人配音,搭配TTS語音合成、唇形表型預(yù)測來實現(xiàn)的數(shù)字人開始出現(xiàn)。這時的數(shù)字人主要作用依舊是虛擬主播,但更多類似真人主播的一種“新型表演”,并不能從生產(chǎn)力上實現(xiàn)替代人類主播的作用。
當NLP、知識圖譜技術(shù)不斷成熟,數(shù)字人具備了多輪對話能力。同時機器視覺帶來的唇形捕捉、面部捕捉技術(shù)愈發(fā)完善,由AI技術(shù)驅(qū)動的AI數(shù)字人開始出現(xiàn)。這時的數(shù)字人發(fā)生了最為深刻的一個變化:數(shù)字人可以獨立完成人物,人工配音和真人扮演不再成為必備。這讓數(shù)字人對齊了一個巨大的商業(yè)空間:在那些只需要簡單對話、交互的工作中,由AI替代人類。
這樣的工作有很多,比如AI數(shù)字人最早出現(xiàn)在企業(yè)園區(qū)中的導(dǎo)航、導(dǎo)覽工作中。接下來,柜臺服務(wù)、智能客服等領(lǐng)域開始出現(xiàn)數(shù)字人。尤其在金融、保險等領(lǐng)域,由于顧客的需求相對固定,且數(shù)字人不易出現(xiàn)人為錯誤。在這些行業(yè)薪資水平相對較高的前提下,數(shù)字人客服展現(xiàn)出了一定優(yōu)勢。
但與客服場景相比,真正讓數(shù)字人火起來的,依舊是直播。從虛擬偶像到虛擬主播,直播始終都是數(shù)字人的天然溫床,是數(shù)字人“生”的動力和希望。隨著直播帶貨成為主流的電商消費形式,主播逐漸成了稀缺資源。很多廠商與品牌方,在近兩年選擇了全天候、多線路的高強度直播模式。而這就導(dǎo)致主播的需求壓力激增。加上疫情導(dǎo)致主播工作不確定性增加、主播坑位費與雇傭費等成本增大等因素,讓企業(yè)和MCN機構(gòu)開始探索主播的替代方案。加上在目前的直播經(jīng)濟中,很多品牌方的直播需求僅僅是不間斷宣講信息、推出產(chǎn)品,工作門檻并不高,用AI代替人類主播就成為可能。
早在2021年雙11,我們可以看到各個電商平臺、直播平臺,以及MCN機構(gòu)的宣傳重點,已經(jīng)從直播帶貨能力,變成了虛擬主播、數(shù)字人的直播帶貨能力,以及綜合成本優(yōu)勢。
另一方面,有問答互動能力,由AI驅(qū)動的數(shù)字人主播能夠激發(fā)用戶的獵奇感、新鮮感,因此直播市場普遍呈現(xiàn)正向反饋。這些反饋,支撐了今天大量關(guān)于數(shù)字人的政策支持與市場預(yù)判。
但生于直播,成于直播的數(shù)字人,有這樣一個先決條件:數(shù)字人的應(yīng)用成本,必須要比人類主播更低。
這是因為,作為替代品出現(xiàn)的數(shù)字人,歸根結(jié)底問答能力、應(yīng)變能力與才藝能力都不如人類主播。數(shù)字人+直播的興旺態(tài)勢,建立在大量企業(yè)與商品等待開播,但沒有主播可用的特殊需求上,從而導(dǎo)致大量低成本開發(fā)、模板換皮的數(shù)字人快速走上崗位。
隨著主播需求開始發(fā)生調(diào)整,人類主播的成本降低,以及企業(yè)的直播需求逐漸放緩。數(shù)字人的市場利好也將逐步失效。而從另一個維度看,數(shù)字人本身的開發(fā)成本、制作成本卻在上漲,對比人類主播的成本優(yōu)勢開始松動。
這是因為,數(shù)字人已經(jīng)遇到了從業(yè)以來的最大挑戰(zhàn):同質(zhì)化。
死于同質(zhì)
至少在目前階段我們必須承認,由AI驅(qū)動的數(shù)字人依舊處在交互能力有限、表達單一的階段。在對話比較尷尬的情況下,數(shù)字人更多作用還是播放已經(jīng)錄制好的內(nèi)容,或者切換成人類配音+語音合成+唇形識別的“木偶人”模式。
當然,AI對于數(shù)字人的價值是多樣的,并不限于多輪對話和知識圖譜,還包括視覺、語音方面的內(nèi)容。但無論怎么說,數(shù)字人應(yīng)用很快進入了一個基本困境:由于數(shù)字人背后的AI模型來源只有那么幾個,導(dǎo)致每個數(shù)字人即使在外貌上進行了差異設(shè)計,其交互能力和所具備功能卻大多是一樣的。
好看的皮囊萬里挑一,但無趣的靈魂千篇一律。隨著數(shù)字人帶來的第一波新奇體驗逐漸平淡,接下來如何讓數(shù)字人產(chǎn)生差異化就成為了巨大挑戰(zhàn)。
于是我們看到,很多數(shù)字人剛出道沒多久就銷聲匿跡?!皵?shù)字人之死”,遠比預(yù)想中來得更快一些。某服裝品牌的數(shù)字人,僅僅在直播和短視頻平臺活躍了幾個月就杳無音訊;某大型活動的數(shù)字人推廣大使,因為建模過于粗糙遭到網(wǎng)友吐槽;大量新出道的虛擬偶像,都缺乏能讓人記住的特點;很多直播間在嘗試了一段時間數(shù)字人后,又把人類主播召喚了回來。
蜂擁而上的數(shù)字人,絕大多數(shù)都沒有激起什么水花,反而淹沒在形象、功能、交互的高度同質(zhì)化里,轉(zhuǎn)眼消失不見。
一方面看好數(shù)字人長期發(fā)展,另一方面同質(zhì)化又在侵蝕數(shù)字人的應(yīng)用空間。想要逃離這個怪圈,行業(yè)似乎就只好“卷”起來。數(shù)字人擺脫同質(zhì)競爭,需要卷設(shè)計、卷聲優(yōu)、卷渲染,更重要的是需要卷AI技術(shù)。數(shù)字人的核心技術(shù)包括圖形計算、AI動作捕捉、NLP、語音合成、知識突破等等。這些技術(shù)能力都有升級空間,但所需代價是最大的。
一旦卷起來,想要擺脫同質(zhì)化,數(shù)字人的成本又將直線上升,繼而也就喪失了對標人類主播的低成本優(yōu)勢。這個進退兩難的囚徒困境,導(dǎo)致數(shù)字人產(chǎn)業(yè)在大展宏圖之前,已經(jīng)先行進入了疲勞期。
數(shù)字人,也疲勞
想生存,就要卷,這是科技行業(yè)永恒的命題。而對于今天的數(shù)字人來說,企業(yè)快速弄一個換皮、套殼的數(shù)字人主播確實是代價很小,甚至可以忽略不計。然而一旦企業(yè)對這樣的數(shù)字人產(chǎn)品有了不滿,希望能夠做出有創(chuàng)意、足夠智能的數(shù)字人,那么代價會猛然增加。
這種成本壓力,導(dǎo)致企業(yè)出現(xiàn)了用數(shù)字人也不是,不用更不是的疲勞感。
具體來看,這種疲勞的來源是多方面的。前期的供應(yīng)鏈成本、后期的運營維護成本,以及取悅最終用戶的成本,都加劇了數(shù)字人長期應(yīng)用的難度。我們可以將這些壓力,總結(jié)成數(shù)字人的三種疲態(tài):
1.產(chǎn)業(yè)鏈疲勞。
數(shù)字人擁有著非常漫長且非常復(fù)雜的供應(yīng)鏈。它既然需要AI模型作為底層支撐,同時也需要開發(fā)工具、平臺環(huán)境、存算網(wǎng)資源的支持。在技術(shù)能力之外,數(shù)字人還在設(shè)計、動畫、專業(yè)人才等方面產(chǎn)生成本支出。一家企業(yè)如果想要獲得完善且優(yōu)質(zhì)的數(shù)字人方案,要么自身具備統(tǒng)合多方面供應(yīng)鏈與技術(shù)開發(fā)、藝術(shù)設(shè)計的能力,要么直接購買定制化的數(shù)字人解決方案。
顯然,后一種方式對于絕大部分企業(yè)來說更加現(xiàn)實。但定制化和高要求意味著數(shù)字人的前期成本直線飆升。能否在后續(xù)應(yīng)用中收回這些成本,或者能否有效降低這些成本,對于企業(yè)來說都是未知數(shù)。這也是為什么,很多企業(yè)寧可直接拋棄數(shù)字人,也不愿意升級數(shù)字人。或者依舊讓初級的數(shù)字人解決方案苦苦支撐。
另一方面,對于數(shù)字人供應(yīng)鏈企業(yè)來說,大量數(shù)字人都涌向直播,確實帶火了業(yè)務(wù)。但過分聚焦的業(yè)務(wù),讓接下來的升級遭遇了困境。從產(chǎn)業(yè)鏈來看,數(shù)字人可能涉及顯示硬件、光學器件、芯片、AI模型、AI開發(fā)工具、建模軟件等等技術(shù)領(lǐng)域,還必須包括應(yīng)用層的行業(yè)開發(fā)者與軟件供應(yīng)商。如此多復(fù)雜的產(chǎn)業(yè)鏈,最終都僅僅為直播服務(wù)。單一的應(yīng)用場景很難消納產(chǎn)業(yè)鏈的創(chuàng)新成本。這導(dǎo)致數(shù)字人的底層技術(shù)很難快速升級,或者將成本攤薄。
過長、過復(fù)雜,并且牽一發(fā)動全身的數(shù)字人產(chǎn)業(yè)鏈,導(dǎo)致數(shù)字人很難低成本、高效率做出改變。產(chǎn)業(yè)鏈懼怕應(yīng)用窗口太窄,應(yīng)用擔心產(chǎn)業(yè)鏈升級太貴,最終讓數(shù)字人出現(xiàn)了局面大好之下的焦灼感與焦慮感。
2.運維疲勞。
當前數(shù)字人產(chǎn)業(yè)的另一個問題,是很多企業(yè)發(fā)現(xiàn)數(shù)字人買得起,用不起。這是因為數(shù)字人的定制化服務(wù)整體成本過高,很多供應(yīng)商擔心市場情況。于是采取了降低一次性解決方案成本,但要捆綁運維支持的商業(yè)模式。而由于數(shù)字人的商業(yè)供需非常單一,這種模式大多需要落在依賴虛擬主播的電商來為之買單。
這種先嘗后買的模式,非常容易帶來后期運維層面的焦慮感。隨著用戶的習慣甚至厭倦,數(shù)字人直播帶來的直接價值降低,其因為成本的壓力就會突顯出來。對于企業(yè)用戶來說,會越發(fā)將數(shù)字人連續(xù)不斷的運維費用作為負擔,并且產(chǎn)生不愿升級、不愿續(xù)費的想法。而對于服務(wù)商來說,則更多希望降低數(shù)字人的真實運營成本,拓展自身的實際利潤。這就導(dǎo)致很多數(shù)字人畫風越來越崩壞,體驗愈發(fā)不智能。這就是因為服務(wù)商降低了數(shù)字人的AI模型或者圖像渲染成本。更有甚者,一些服務(wù)商甚至在不告知甲方的情況下,直接派真人配音來代替數(shù)字人當中的AI技術(shù),以期降低運營壓力。AI假裝真人還未成功,真人已經(jīng)開始扮演AI,這也是讓人想不到的情況。
3.審美疲勞。
無論是前期投入還是后期成本,數(shù)字人產(chǎn)業(yè)的疲態(tài)都來自成本壓力。而所有成本壓力的來源,在于最終用戶對數(shù)字人+直播/短視頻的模式已經(jīng)產(chǎn)生了審美疲勞。畢竟AI的交互能力與理解能力都有限,很難實現(xiàn)源源不斷的新價值輸出。但用戶對于主播的期待是無限的,單調(diào)、重復(fù),已經(jīng)成為很多用戶對數(shù)字人主播的刻板印象。
口味愈發(fā)苛刻的用戶審美,會最終推動數(shù)字人產(chǎn)業(yè)鏈進行洗牌。低成本、高重復(fù)的模式很難維序下去。數(shù)字人能否真正走入大規(guī)模應(yīng)用階段,需要看是否能跳出這個疲勞怪圈。
如果說配音是數(shù)字人1.0,對唇形是數(shù)字人2.0,AI驅(qū)動是數(shù)字人3.0。那么走向4.0時代的數(shù)字人,必須要面對擺脫千篇一律的功能,走向直播之外的更廣闊產(chǎn)業(yè)空間。智能與差異,是治愈數(shù)字人疲勞感的關(guān)鍵。
目前,解決這一問題的思路漸漸成形。比如說用大模型提升數(shù)字人的“腦容量”,ChatGPT的出現(xiàn)快速讓很多產(chǎn)業(yè)興奮了起來,其中就包括數(shù)字人。更多以預(yù)訓(xùn)練大模型來提升數(shù)字人智能水平的方案,將成為接下來這個領(lǐng)域的升級重點。
再比如通過硬件升級,來實現(xiàn)數(shù)字人更廣泛的商業(yè)價值。新一代VR硬件這股風在歐美已經(jīng)十分勁爆,并且開始向中國傳導(dǎo)。在VR場景下,數(shù)字人可以以更多方式與用戶交互,從而帶來新的需求,解決一部分手機直播中的審美疲勞,這也是數(shù)字人擺脫直播依賴的一個方法。
還有,持續(xù)縮短數(shù)字人供應(yīng)鏈,降低數(shù)字人的上游成本也是解決方案之一。很多云計算廠商,開始面向企業(yè)與軟件開發(fā)者,推出封裝好的一站式數(shù)字人搭建方案,從而讓數(shù)字人從解決方案買斷,更多轉(zhuǎn)型自主開發(fā)、自主定制的低成本方案。
這些解題思路的最終結(jié)果,都還有待未來去檢驗。至少在今天,我們似乎沒有理由認為數(shù)字人已經(jīng)迎來了春天。在繁榮的市場預(yù)期與政策期待下,應(yīng)該先問數(shù)字人幾個問題:
1.直播中的數(shù)字人的價值究竟幾何?他們的不可替代性和成本優(yōu)勢能夠維持多久?
2.曾經(jīng)的頭部主播也紛紛過氣,距離用戶厭煩數(shù)字人還需要多久?
3.播之外,真的有商業(yè)價值能撐起如此復(fù)雜的數(shù)字人產(chǎn)業(yè)鏈嗎?
數(shù)字人真想走出去,需要某個新技術(shù)帶來規(guī)模龐大,且足夠持久的新應(yīng)用市場?;蛟S只有一場深層次的技術(shù)變革,才能治好數(shù)字人的疲憊。