技術(shù)
導(dǎo)讀:想到可以利用AI進(jìn)行詐騙的可不止一些初創(chuàng)公司,當(dāng)下AI技術(shù)如此發(fā)達(dá),換臉都能輕松實(shí)現(xiàn),那聲音呢?
想到可以利用AI進(jìn)行詐騙的可不止一些初創(chuàng)公司,當(dāng)下AI技術(shù)如此發(fā)達(dá),換臉都能輕松實(shí)現(xiàn),那聲音呢?
提到這種變聲技術(shù),可能最先想到的是《名偵探柯南》中柯南使用的蝴蝶結(jié)變聲器,柯南正是利用阿笠博士的這個(gè)發(fā)明把“沉睡的毛利小五郎”捧上了偵探界的神壇。
但是試想,如果有人把這項(xiàng)技術(shù)用于詐騙,是不是頓時(shí)后背發(fā)涼?
據(jù)《華爾街日?qǐng)?bào)》報(bào)道,今年3月份,有犯罪分子就使用了類似的AI技術(shù),他們成功模仿了英國某能源公司在德國母公司CEO的聲音,詐騙了220,000歐元(約1,730,806人民幣)。
網(wǎng)絡(luò)犯罪專家稱,這是黑客攻擊中利用AI技術(shù)的一次不尋常案例。
三次電話,損失22萬歐元
案發(fā)時(shí),該公司的CEO誤以為他正在與他的老板,也就是德國母公司的CEO通電話,老板要求他將資金匯給匈牙利供應(yīng)商。據(jù)該公司的保險(xiǎn)公司Euler Hermes Group SA稱,來電者表示該請(qǐng)求非常緊急,要求行政人員在一小時(shí)內(nèi)付款。
慕尼黑的金融服務(wù)公司Allianz SE旗下子公司Euler Hermes的欺詐專家Rüdiger Kirsch說,犯罪分子總共打了三次電話。220,000歐元轉(zhuǎn)移后,他們打電話說母公司已經(jīng)轉(zhuǎn)移資金償還英國公司,然后他們?cè)诋?dāng)天晚些時(shí)候進(jìn)行了第三次電話會(huì)議,再次冒充首席執(zhí)行官,要求第二次付款。由于轉(zhuǎn)賬償還資金還沒有到來,而第三次電話是來自奧地利的電話號(hào)碼,行政部門開始懷疑,沒有支付第二筆款項(xiàng)。
根據(jù)Kirsch先生的說法,轉(zhuǎn)入匈牙利銀行賬戶的資金隨后轉(zhuǎn)移到墨西哥并分發(fā)到其他地方,調(diào)查人員沒有發(fā)現(xiàn)任何嫌犯,而且,Euler Hermes承擔(dān)了受害公司索賠的全部金額,但沒有處理要求追回涉及AI犯罪損失的索賠。
Kirsch先生認(rèn)為,使用AI詐騙對(duì)公司來說是新的挑戰(zhàn),傳統(tǒng)網(wǎng)絡(luò)安全工具無法發(fā)現(xiàn)欺騙性的聲音,而黑客往往就是使用商業(yè)語音生成軟件進(jìn)行攻擊。Kirsch先生用這種產(chǎn)品錄制了自己的聲音,并說復(fù)制版本聽起來很真實(shí)。
目前還不清楚攻擊者是否使用機(jī)器人對(duì)受害者的問題作出反應(yīng)。歐洲刑警組織歐洲網(wǎng)絡(luò)犯罪中心戰(zhàn)略負(fù)責(zé)人菲利普·阿曼說,如果他們這樣做,執(zhí)法當(dāng)局調(diào)查可能會(huì)更加困難。Kirsch先生說,警方對(duì)此案的調(diào)查已經(jīng)結(jié)束,歐洲刑警組織沒有參與。
從語音轉(zhuǎn)發(fā)到語音復(fù)制,聲音還有多少可信度?
其實(shí),執(zhí)法當(dāng)局和AI專家早有預(yù)言,犯罪分子將使用AI進(jìn)行自動(dòng)化網(wǎng)絡(luò)攻擊。無論是誰策劃了這一事件,他們都已經(jīng)使用AI軟件成功地通過電話模仿了德國高管的聲音。
雖然有歐洲官員表示,這是他們第一次聽說在歐洲發(fā)生AI變聲語音詐騙,而且犯罪分子明顯依賴于AI變聲技術(shù),但這遠(yuǎn)非第一起利用語音進(jìn)行詐騙的案件,在國內(nèi),變聲技術(shù)早已被用于網(wǎng)絡(luò)詐騙中,人民網(wǎng)微博最早在去年八月就發(fā)布了利用微信語音詐騙的案件消息。
犯罪分子利用的是一種名叫“增強(qiáng)版微信”的軟件,這種“增強(qiáng)版微信”具有能夠轉(zhuǎn)發(fā)語音消息、克隆好友朋友圈、看到對(duì)方撤回的消息等功能。
據(jù)稱,這些功能都是服務(wù)于一些“特殊用戶”的,比如自定義位置,就能讓客戶在國內(nèi)實(shí)現(xiàn)海外“云度假”,或者讓一些商家假裝自己是“海外代購”等。
脫離微信而言,利用聲音合成技術(shù)也已經(jīng)實(shí)現(xiàn)了語音復(fù)制。
去年,三名蒙特利爾大學(xué)博士聯(lián)合創(chuàng)辦的名為“琴鳥”(Lyrebird)的公司開發(fā)出了一種“語音合成”技術(shù),只要對(duì)目標(biāo)人物的聲音進(jìn)行1分鐘的錄音,丟給“Lyrebird”處理,就能得到一個(gè)特別的密鑰,利用這個(gè)密鑰可以生成目標(biāo)人物任何想說的話。
“琴鳥”(Lyrebird)不僅能利用語音模仿演算模仿出任何人的聲音,還能在聲音中加入“感情”元素,讓聲音聽上去更為逼真。
去年Black Hat大會(huì)上也展示了一種聲音模擬技術(shù),這項(xiàng)技術(shù)是通過獲取某人長時(shí)間的錄音,拼接其聲音片段實(shí)現(xiàn)模擬。阿曼先生表示,雖然很難預(yù)測(cè)使用AI的網(wǎng)絡(luò)攻擊是否會(huì)很快上升,但如果AI技術(shù)能夠讓黑客攻擊更成功或更有利可圖,他們會(huì)更傾向于使用該技術(shù)。
基于神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)的AI變聲技術(shù)
不管是成功詐騙歐洲公司的黑客們利用的技術(shù),還是加拿大的“琴鳥”(Lyrebird),它們最終都能得到高還原度的合成聲音,在這背后依賴的技術(shù)正是神經(jīng)網(wǎng)絡(luò)(Neural Network)和機(jī)器學(xué)習(xí)(Machine Learning)。
神經(jīng)網(wǎng)絡(luò)通過模擬電信號(hào)在人腦神經(jīng)元之間的傳遞過程,對(duì)輸入數(shù)據(jù)進(jìn)行處理,同時(shí)利用分層的神經(jīng)元,從大量樣本數(shù)據(jù)中總結(jié)出共同特征。
第一個(gè)用神經(jīng)網(wǎng)絡(luò)生成人類自然語音的,就是Google的DeepMind研究實(shí)驗(yàn)室發(fā)布的WaveNet。
接下來就以WaveNet為例,簡單介紹一下AI是如何通過神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)來合成語音的。
論文鏈接:
https://arxiv.org/abs/1609.03499
WaveNet是基于PixelCNN的音頻生成模型,在這個(gè)生成模型中,每個(gè)音頻樣本都以先前的音頻樣本為條件。條件概率用一組卷積層來建模。這個(gè)網(wǎng)絡(luò)沒有池化層,模型的輸出與輸入具有相同的時(shí)間維數(shù)。
在模型架構(gòu)中使用臨時(shí)卷積可以確保模型不會(huì)違反數(shù)據(jù)建模的順序。在該模型中,每個(gè)預(yù)測(cè)語音樣本被反饋到網(wǎng)絡(luò)上用來幫助預(yù)測(cè)下一個(gè)語音樣本,由于臨時(shí)卷積沒有周期性連接,因此它們比RNN訓(xùn)練地更快。
使用臨時(shí)卷積的主要挑戰(zhàn)之一是需要很多層來增加感受野,為了解決這一難題,作者使用了加寬的卷積,加寬的卷積使只有幾層的網(wǎng)絡(luò)能有更大的感受野。模型使用了Softmax分布對(duì)各個(gè)音頻樣本的條件分布建模。
這個(gè)模型在多人情景的語音生成、文本到語音的轉(zhuǎn)換、音樂音頻建模等方面進(jìn)行了評(píng)估。測(cè)試中使用的是平均意見評(píng)分(MOS),MOS可以評(píng)測(cè)聲音的質(zhì)量,本質(zhì)上就是一個(gè)人對(duì)聲音質(zhì)量的評(píng)價(jià)一樣。它有1到5之間的數(shù)字,其中5表示質(zhì)量最好。
相關(guān)檢測(cè)技術(shù)正在研究中
聯(lián)合國區(qū)域間犯罪與司法研究所人工智能與機(jī)器人中心主任Irakli Beridze表示,將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于欺騙性聲音使網(wǎng)絡(luò)犯罪變得更加容易。
聯(lián)合國中心正在研究檢測(cè)虛假視頻的技術(shù),Beridze先生稱這對(duì)于黑客來說可能是一個(gè)更有用的工具。 “想象一下,以CEO的聲音進(jìn)行視頻通話,這是您熟悉的面部表情,這樣的話你根本不會(huì)有任何疑慮?!彼f。
推特上有網(wǎng)友對(duì)此也發(fā)表了看法,認(rèn)為可以利用AI技術(shù)破除AI難關(guān),或許這會(huì)成為未來解決類似問題的主要辦法之一。
在百度上輸入“語音詐騙”、“識(shí)別”等關(guān)鍵詞,可以看到百度經(jīng)驗(yàn)的相關(guān)帖子,雖然這些“經(jīng)驗(yàn)”都已經(jīng)相當(dāng)古早,但能看出大家與這類詐騙的對(duì)抗已然是相當(dāng)持久。
不管怎樣,希望相關(guān)的識(shí)別技術(shù)能早日研究出來。
不知道大家有沒有遇到過類似的語音詐騙事件?當(dāng)真的遇到這類事件應(yīng)該如何應(yīng)對(duì)最好呢?歡迎大家留言討論。
相關(guān)報(bào)道:https://www.wsj.com/articles/fraudsters-use-ai-to-mimic-ceos-voice-in-unusual-cybercrime-case-11567157402