導(dǎo)讀:3D人臉建模是計(jì)算機(jī)視覺、圖形學(xué)、機(jī)器學(xué)習(xí)領(lǐng)域的研究焦點(diǎn)之一。
作者 | 溫淑
倫敦帝國理工學(xué)院和初創(chuàng)公司FaceSoft.io的研究人員設(shè)計(jì)出一個(gè)人臉建模系統(tǒng)AvatarMe。AvatarMe可以依據(jù)任意一張人臉照片和一些面部細(xì)節(jié),生成4K x 6K分辨率的3D人臉模型。
AvatarMe是首個(gè)能根據(jù)單一圖像生成較高分辨率3D人臉模型的系統(tǒng)。在未來,AvatarMe或可用于視頻會議等各個(gè)VR應(yīng)用場景。
這項(xiàng)研究發(fā)表于CVPR 2020,論文標(biāo)題為《AvatarMe:“在野外”的真實(shí)的可渲染的3D臉部重建(AvatarMe:Realistically Renderable 3D Facial Reconstruction “in-the-wild”)》。
論文鏈接:https://arxiv.org/pdf/2003.13845.pdf
CVPR(Conference on Computer Vision and Pattern Recognition)是由IEEE舉辦的計(jì)算機(jī)視覺和模式識別領(lǐng)域的頂級會議,本屆會議在6月13日到6月19日之間舉辦。
一、AvatarMe:依據(jù)一張照片生成逼真的3D人臉
3D人臉建模是計(jì)算機(jī)視覺、圖形學(xué)、機(jī)器學(xué)習(xí)領(lǐng)域的研究焦點(diǎn)之一。在過去幾年,許多研究團(tuán)隊(duì)研發(fā)了基于生成對抗性網(wǎng)絡(luò)(GAN)的3D人臉建模系統(tǒng)。
GAN由一個(gè)生成網(wǎng)絡(luò)和一個(gè)判別網(wǎng)絡(luò)組成。GAN模型的學(xué)習(xí)過程就是生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的相互博弈的過程:生成網(wǎng)絡(luò)隨機(jī)合成一張圖片,讓判別網(wǎng)絡(luò)判斷這張圖片的真假,繼而根據(jù)判別網(wǎng)絡(luò)給出的反饋不斷提高“造假”能力,最終做到以假亂真。
但是,在依據(jù)任意人臉照片生成3D人臉模型方面,現(xiàn)有的解決方案普遍性能較差,生成的3D人臉模型分辨率較低。
倫敦帝國理工學(xué)院和初創(chuàng)公司FaceSoft.io的研究人員認(rèn)為,這是因?yàn)閮蓚€(gè)原因:
一方面,研究人員缺乏可用于培訓(xùn)的數(shù)據(jù);另一方面,可成功應(yīng)用于高分辨率數(shù)據(jù)的穩(wěn)健方法也比較少。
為了解決這些問題,倫敦帝國理工學(xué)院和初創(chuàng)公司FaceSoft.io的研發(fā)人員捕獲了一個(gè)關(guān)于面部形狀和反射率的大型數(shù)據(jù)集。
同時(shí),研究人員采用基于藝術(shù)狀態(tài)的3D紋理和形狀重建方法,以渲染所需的每像素分辨率和鏡面反射分量。最終,研究人員成功地優(yōu)化了3D人臉建模結(jié)果。
▲AvatarMe系統(tǒng)的管道結(jié)果
二、采用兩種捕獲方法,收集超200張人臉圖像
為了建立可用于訓(xùn)練的人臉數(shù)據(jù)集,研究人員采用兩種方法收集數(shù)據(jù)。
第一種方法中,研究人員利用一個(gè)有168個(gè)光源的極化LED球泡燈和9臺單反相機(jī),捕獲高分辨率的孔隙級人臉反射率圖。極化LED球泡燈中,一半的光源是垂直極化的,另一半光源是水平極化的。兩種極化方式的光源交錯排布。
第二種方法中,研究人員利用非極化的LED球泡燈進(jìn)行色彩空間分析,以捕獲解纏的紋理。相比于第一種方法,利用非極化的LED球泡燈只需捕獲不到一半的數(shù)據(jù),因此捕獲時(shí)間較短短。另外,由于不需要偏振片(polarizer),非極化的LED球泡燈設(shè)置也比較簡單。
通過這兩種方法,研究人員采集到超過200個(gè)不同年齡和特點(diǎn)的人的孔隙級人臉反射率圖。為便于進(jìn)一步研究,研究人員將收集到的圖像引入一個(gè)標(biāo)準(zhǔn)拓?fù)浣Y(jié)構(gòu)中,建立人臉數(shù)據(jù)庫。
研究人員將這一數(shù)據(jù)庫命名為RealFaceDB,根據(jù)論文,與同類人臉數(shù)據(jù)庫相比,RealFaceDB規(guī)模為最大。
▲將人臉圖像引入標(biāo)準(zhǔn)拓?fù)浣Y(jié)構(gòu)
三、不僅能用低分辨率照片建模,戴墨鏡照片也行
基于RealFaceDB數(shù)據(jù)庫,研究人員開始訓(xùn)練基于GAN的AvatarMe系統(tǒng)。
訓(xùn)練過程中,研究人員首先輸入一張低分辨率的人臉圖片,用3DMM算法重建一個(gè)帶紋理的基本幾何體。然后,利用一個(gè)超級分辨率網(wǎng)絡(luò),研究人員重建紋理映射。接下來,研究人員利用一個(gè)去照明網(wǎng)絡(luò)獲得高分辨率的漫反射函數(shù)(AD)。最后,研究人員利用漫反射函數(shù)AD和基本幾何體,推斷出其他部分的函數(shù)(AS、ND、NS),進(jìn)而建立仿真的3D人臉模型。
經(jīng)過訓(xùn)練,AvatarMe系統(tǒng)可以輸出4K x 6K分辨率的3D人臉模型。
為了評估AvatarMe的性能,研究人員輸入隨機(jī)圖片,觀察AvatarMe重建的3D模型是否逼真。結(jié)果顯示,AvatarMe系統(tǒng)重建的3D人臉模型沒有產(chǎn)生偽影。另外,在照片主人公戴有墨鏡的情況下,系統(tǒng)也能較精準(zhǔn)地建模。
結(jié)語:未來計(jì)劃把RealFaceDB數(shù)據(jù)庫開源
本項(xiàng)研究中,倫敦帝國理工學(xué)院和初創(chuàng)公司FaceSoft.io的研究人員設(shè)計(jì)出人臉建模系統(tǒng)AvatarMe。AvatarMe可以利用任意一張人臉照片,建立出較高分辨率的3D人臉模型。
研究人員還建立了同類數(shù)據(jù)庫中規(guī)模最大的RealFaceDB數(shù)據(jù)庫。研究人員稱,未來計(jì)劃將這一數(shù)據(jù)庫向科學(xué)界開源。
同時(shí),論文指出,RealFaceDB數(shù)據(jù)庫還存在一些局限性。比如,RealFaceDB數(shù)據(jù)庫中缺乏來自深膚色種族的樣本。因此,在依據(jù)深膚色種族樣本建模時(shí),AvatarMe系統(tǒng)建立的3D人臉模型分辨率有所降低。
參考信源:VentureBeat、arXiv