導(dǎo)讀:AI換臉已不是新鮮事,手機應(yīng)用市場中有多款換臉app,此前也曾曝出有網(wǎng)絡(luò)IP用明星的面孔偽造色情影片、在大選期間用競選者的臉制作虛假影像信息等。
AI換臉已不是新鮮事,手機應(yīng)用市場中有多款換臉app,此前也曾曝出有網(wǎng)絡(luò)IP用明星的面孔偽造色情影片、在大選期間用競選者的臉制作虛假影像信息等。
為了規(guī)避Deepfake濫用帶來的惡性后果,許多研究者嘗試用AI技術(shù)開發(fā)鑒定分類器。
然而,谷歌公司和加州大學(xué)伯克利分校的研究人員最近的研究顯示,現(xiàn)在的鑒定技術(shù)水平還不足以100%甄別出AI換臉作品。另一項由加州大學(xué)圣地亞哥分校主導(dǎo)的研究也得出了相同結(jié)論。
這些研究結(jié)果為我們敲響了警鐘,要警惕AI換臉制作的虛假信息。
目前谷歌和加州大學(xué)伯克利分校的研究已經(jīng)發(fā)表在學(xué)術(shù)網(wǎng)站arXiv上,論文標(biāo)題為《用白盒、黑盒攻擊繞過Deepfake圖像鑒別工具(Evading Deepfake-Image Detectors with White- and Black-Box Attacks)》
論文鏈接:https://arxiv.org/pdf/2004.00622.pdf
一、實驗準(zhǔn)備:訓(xùn)練3種分類器,設(shè)置對照組
實現(xiàn)AI換臉的技術(shù)被稱為Deepfake,原理是基于生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)合成虛假圖片。GAN由一個生成網(wǎng)絡(luò)和一個判別網(wǎng)絡(luò)組成。
GAN模型的學(xué)習(xí)過程就是生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的相互博弈的過程:生成網(wǎng)絡(luò)隨機合成一張圖片,讓判別網(wǎng)絡(luò)判斷這張圖片的真假,繼而根據(jù)判別網(wǎng)絡(luò)給出的反饋不斷提高“造假”能力,最終做到以假亂真。
研究人員共對3個分類器做了測試,其中兩個為第三方分類器,一個為研究人員訓(xùn)練出的用于對照的分類器。
選用的第三方分類器分別采用兩種不同訓(xùn)練方式。
第一個分類器模型基于深度殘差網(wǎng)絡(luò)ResNet-50(Deepresidual network)。
用到的ResNet-50預(yù)先經(jīng)過大型視覺數(shù)據(jù)庫ImageNet訓(xùn)練,接下來再被訓(xùn)練用于辨別真假圖像。采用包含720000個訓(xùn)練圖像、4000個驗證圖像的訓(xùn)練集,其中一半為真實圖像,另一半是用ProGAN生成的合成圖像。合成圖像采用空間模糊和JEPG壓縮方法增強。
經(jīng)過訓(xùn)練后,這個分類器能準(zhǔn)確識別出ProGAN生成的圖像,而且還能分類其他未被發(fā)現(xiàn)的圖像。
第二個鑒定分類器采用的是基于相似性學(xué)習(xí)(similar learning-based)的方法。經(jīng)過訓(xùn)練后這款分類器可以準(zhǔn)確辨認(rèn)出由不同生成器合成的圖像。
研究團隊還自己搭建了一個鑒定分類器模型,作為前述兩個鑒定分類器的對照示例。這個分類器采用100萬個ProGAN生成的圖像進行訓(xùn)練,其中真假圖像各占一半。論文中指出,這個分類器的訓(xùn)練管道比前述兩種簡單很多,因此錯誤率也更高。
研究人員根據(jù)分類器是否開放了訪問權(quán)限,選用了不同的攻擊方式。對開發(fā)訪問權(quán)限的分類器采用白盒攻擊;對不開放訪問權(quán)限的分類器采用黑盒攻擊。
另外,研究人員用接收者操作特征曲線(ROC曲線)評估分類器的正確率。評估標(biāo)準(zhǔn)是曲線下面積(AUC)的大小。AUC的取值范圍為0~1,一般來說AUC>0.5即代表分類器有預(yù)測價值,AUC值越大代表分類器準(zhǔn)確率越高。
二、4種白盒攻擊方法,AUC最低被降至0.085
對于開放了訪問權(quán)限的分類器,研究人員用白盒攻擊評估其穩(wěn)健性。
白盒攻擊即攻擊者能夠獲知分類器所使用的算法以及算法使用的參數(shù)。在產(chǎn)生對抗性攻擊數(shù)據(jù)的過程中,攻擊者能夠與分類器系統(tǒng)產(chǎn)生交互。
攻擊過程中用到的所有圖像都來自一個包含94036張圖像的視覺數(shù)據(jù)庫。
開始白盒攻擊之前,基于這個數(shù)據(jù)庫的分類器的AUC數(shù)值為0.97。即使在執(zhí)行典型的清洗策略隱藏圖像合成痕跡后,分類器的AUC數(shù)值仍保持在0.94以上。
接下來研究人員使用了4種白盒攻擊方法。這4種攻擊在之前的對抗性示例中已有過研究。攻擊的具體方式是對圖像進行修改,使分類器誤認(rèn)為它們是真實的。
▲四種攻擊前后,分類器的ROC曲線圖。藍(lán)色實線代表JPEG格式的合成圖像,藍(lán)色虛線代表PNG格式的合成圖像
第一種是失真最小化攻擊(Distortion-minimizing Attack),即對合成圖像添加一個較小的加法擾動δ。假設(shè)一個合成圖像x先被分類器判定為假,施加擾動后,(x+δ)就會被判定為真。
結(jié)果顯示,像素翻轉(zhuǎn)2%,就會有71.3%的假圖像被誤判為真;像素翻轉(zhuǎn)4%,會有89.7%的假圖像被誤判為真;像素翻轉(zhuǎn)4~11%,所有的假圖像都會被誤判為真。
▲a:分類器把假圖像識別為真;b:分類器把真圖像識別為假。把像素翻轉(zhuǎn)1%,就會有一半的假圖像被判定為真;把像素翻轉(zhuǎn)7%,就會有一半的真圖像被判定為假。
第二種是損失最大化攻擊(Loss-Maximizing Attack),即定義一個更簡單的目標(biāo)函數(shù),更大限度地提升合成圖像被判定為真的概率。
結(jié)果顯示把未壓縮圖像的像素翻轉(zhuǎn)40%,AUC值就會從0.966降到0.27。
第三種是通用對抗性補丁攻擊(Universal Adversarial-Patch Attack)。失真最小化攻擊方法有有一個局限性:攻擊者需要花費0.1秒為每個圖像定制攻擊方式。為了彌補這一局限性,研究人員創(chuàng)建了一個單一的可視噪聲模板補丁。這個補丁可以疊加在任何假圖像上,有效增加了假圖像的迷惑性。
疊加補丁后,分類器的AUC值從0.966降到0.085。
不同于之前三種方法通過對假圖像施加擾動來影響分類結(jié)果,第四種攻擊方法是通用潛空間攻擊(Universal Latent-Space Attack),即對圖像的潛在空間進行攻擊。最終把分類器的AUC值從0.99降到0.17。
▲a為通用對抗性補丁攻擊效果,b~d為通用潛空間攻擊效果。圖中所有假圖像都被分類器誤判為真
三、限制條件進行黑盒攻擊,AUC值降至0.22以下
論文指出,現(xiàn)實中的社交網(wǎng)站、約會網(wǎng)站等,并不會公開其鑒定分類器的算法,因此很難進行前面所說的白盒攻擊。
面對這種情況,研究人員進行了黑盒攻擊。黑盒攻擊假設(shè)對方知道攻擊的存在,并且掌握了一般的防御策略。
研究結(jié)果顯示,即使在這種限制性較強的黑盒攻擊條件下,鑒定分類器也很容易受到對抗性因素影響。經(jīng)過黑盒攻擊,分類器的AUC數(shù)值下降到0.22以下。
結(jié)語:現(xiàn)有分類器有局限性,仍需深入研究
谷歌公司和加州大學(xué)伯克利分校研究團隊證明,只要對虛假圖片適當(dāng)加以處理,就能使其“騙”過分類器。
這種現(xiàn)象令人擔(dān)憂,論文中寫道:“部署這樣的分類器會比不部署還糟糕,不僅虛假圖像本身顯得十分真實,分類器的誤判還會賦予它額外的可信度”。
因此,研究人員建議開創(chuàng)新的檢測方法,研究出可以識別經(jīng)過再壓縮、調(diào)整大小、降低分辨率等擾動手段處理的假圖像。
據(jù)悉,目前有許多機構(gòu)正在從事這一工作,如臉書、亞馬遜網(wǎng)絡(luò)服務(wù)及其他機構(gòu)聯(lián)合發(fā)起了“Deepfake鑒別挑戰(zhàn)”,期待能探索出更好的解決方案。