導(dǎo)讀:近日,麻省理工學(xué)院計算機科學(xué)與人工智能實驗室(CSAIL)和卡塔爾計算研究所的研究人員推出了一套鑒別假新聞的全新AI解決方案。
近日,麻省理工學(xué)院計算機科學(xué)與人工智能實驗室(CSAIL)和卡塔爾計算研究所的研究人員推出了一套鑒別假新聞的全新AI解決方案。
該方案在本月的2018年自然語言處理經(jīng)驗方法(EMNLP)會議上提交的一項研究中進行展示,他們描述了一種人工智能(AI)系統(tǒng),可以確定新聞報道來源是準(zhǔn)確的還是帶有政治偏見的。
研究人員用它來創(chuàng)建一個包含1000多個新聞來源的開源數(shù)據(jù)集,其中注釋了“事實性”和“偏見”的分?jǐn)?shù)。他們聲稱這是同類中最大的數(shù)據(jù)庫。
虛假消息繼續(xù)令人頭疼。今年3月,有一半的美國人稱在新聞網(wǎng)站上瀏覽了故意誤導(dǎo)性的文章。最近愛德曼(Edelman)調(diào)查的大多數(shù)受訪者表示,他們無法判斷媒體報道的真實性。鑒于假新聞的傳播速度比真實新聞快,因此十分之七的人擔(dān)心它可能會被用作“武器”,這并不奇怪。
人工智能系統(tǒng)的新穎之處在于對其評估的媒介的廣泛語境理解,沒有單獨從新聞文章中提取特征值(機器學(xué)習(xí)模型所訓(xùn)練的變量),而是在確定可信度時考慮維基百科、社交媒體,甚至URL和網(wǎng)絡(luò)流量數(shù)據(jù)的結(jié)構(gòu)。
它建立在支持向量機(SVM)上,后者是一種常用于分類和回歸分析的監(jiān)督系統(tǒng),經(jīng)過培訓(xùn)就可以進行評估。真實性分為:低、中、高;政治傾向分為:極左、左、中偏左、中偏右、右、極右。
根據(jù)團隊的說法,系統(tǒng)只需要150篇文章來確定是否可以可靠地信任某一來源。它在檢測新聞來源是否具有高、低或中等水平的“事實性”時準(zhǔn)確率可達到65%,并且在檢測新聞來源是左傾,右傾還是中等時準(zhǔn)確率為70%。
維基百科和Twitter也加入了系統(tǒng)的預(yù)測模型。正如研究人員指出的那樣,缺少維基百科頁面可能表明網(wǎng)站不可信,或者頁面可能會提到有問題的來源是諷刺性的或明確的左傾。此外,他們指出,沒有經(jīng)過驗證的Twitter帳戶的出版物,或者使用新創(chuàng)建的沒有明確標(biāo)注的賬戶發(fā)布的消息,不太可能是公正的。
模型考慮的最后兩個向量是URL結(jié)構(gòu)和Web流量。它會檢測試圖模仿可靠新聞來源(例如“foxnews.co.cc”而不是“foxnews.com”)的網(wǎng)址,并考慮網(wǎng)站的Alexa排名,即根據(jù)收到的整體綜合瀏覽量計算得出的指標(biāo)。
該團隊對來自Media Bias/Fact Check(MBFC)的1,066個新聞來源進行了系統(tǒng)培訓(xùn),這是一個人工事實檢查員的網(wǎng)站,他們手動注釋具有準(zhǔn)確性和偏見數(shù)據(jù)的網(wǎng)站。為了生成上述數(shù)據(jù)庫,研究人員在每個網(wǎng)站上發(fā)布了10-100篇文章(總計94,814篇)。
正如研究人員在其報告中詳細詳述的那樣,并非每個特征都是事實性和/或偏見的有用預(yù)測指標(biāo)。例如,一些沒有維基百科頁面或已建立的Twitter個人資料的網(wǎng)站是公正的,而Alexa中排名很高的新聞來源并不總是“一邊倒”地比那些流量較少的新聞源更具偏見或更實際。
然后就出現(xiàn)了一個有趣的模式:來自虛假新聞網(wǎng)站的文章更可能使用雙曲和情感語言,而左傾網(wǎng)點更可能提到公平和互惠。同時,具有較長維基百科頁面的出版物通常更可靠,具有包含最少數(shù)量的特殊字符和復(fù)雜子目錄的URL的出版物也是如此。
在未來,該團隊打算探索該系統(tǒng)是否可以適應(yīng)其他語言(它是專門針對英語進行培訓(xùn)),以及是否可以訓(xùn)練它來檢測特定區(qū)域的偏差。他們計劃推出一款應(yīng)用程序,該應(yīng)用程序?qū)⑼ㄟ^“跨越政治范疇”的文章自動回應(yīng)新聞。
“如果一個網(wǎng)站之前發(fā)布了假新聞,他們很有可能會再次發(fā)布,”該報的第一作者,博士后助理拉米·巴利(Ramy Baly)說。 “通過自動搜索有關(guān)這些網(wǎng)站的數(shù)據(jù),我們希望我們的系統(tǒng)可以幫助確定哪些網(wǎng)站可能首先做到這一點?!?/p>
當(dāng)然,他們并不是唯一試圖用AI來對抗假新聞傳播的機構(gòu)。
總部位于德里的創(chuàng)業(yè)公司MetaFact利用自然語言處理算法(NLP)來標(biāo)記新聞報道和社交媒體帖子中的錯誤信息和偏見。 AdVerify.ai是去年推出測試版的軟件即服務(wù)平臺,可以分析錯誤信息、惡意軟件和其他有問題的內(nèi)容,并可以交叉引用一個定期更新的數(shù)據(jù)庫,其中包含數(shù)千條虛假或合法的新聞。
就其本身而言,F(xiàn)acebook已嘗試部署“識別賬戶和虛假新聞”的人工智能工具,并最近收購了總部位于倫敦的創(chuàng)業(yè)公司Bloomsbury AI,以幫助其打擊誤導(dǎo)性報道。
假新聞會被消除嗎?一些專家不相信AI能勝任這項任務(wù)。負責(zé)組織假冒新聞挑戰(zhàn)賽的卡內(nèi)基梅隆大學(xué)機器人研究所科學(xué)家迪恩·波默洛(Dean Pomerleau)在接受采訪時表示,人工智能缺乏對不正當(dāng)和虛假陳述所必需的語言的細致理解。
“我們實際上是從一個更雄心勃勃的目標(biāo)開始,創(chuàng)建一個可以回答這個問題的系統(tǒng)來解決‘這是假新聞,是或否?’的問題”他說。 “但我們很快意識到機器學(xué)習(xí)不能勝任這項任務(wù)?!?/p>
人類的事實檢查者不一定更好。今年,谷歌暫停了事實檢查,這是一個標(biāo)簽,會出現(xiàn)在谷歌新聞的文章報道旁邊,“包括由新聞出版商和事實檢查機構(gòu)檢查的信息”,此前,保守派出版商們曾紛紛指責(zé)這一設(shè)置對他們表現(xiàn)出偏見。
無論最終解決方案是什么——無論是人工智能還是人工管理,或是兩者兼而有之——都無法提供足夠快的速度。Gartner預(yù)測,到2022年,如果目前的趨勢持續(xù)下去,發(fā)達國家的大多數(shù)人會看到更多的錯誤而不是真實的信息。
原標(biāo)題:火眼金睛!MIT推出新聞鑒別AI系統(tǒng):既可識別假新聞 偏見識別度也超過65%