應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊個人注冊登錄

古文字被AI破譯,MIT和谷歌開發(fā)失傳語言的機(jī)器翻譯系統(tǒng)

2019-07-17 09:24 網(wǎng)界網(wǎng)
關(guān)鍵詞:MIT谷歌AI機(jī)器翻譯

導(dǎo)讀:利用這些信息和語言進(jìn)化的約束,羅家明團(tuán)隊研發(fā)的機(jī)器能夠以相當(dāng)高的準(zhǔn)確度完成上述兩種語言的翻譯?!拔覀兡軌蛘_地將67.3%的B類線形文字中的同源詞翻譯成對應(yīng)的希臘語”,他們說,“據(jù)我們所知,本次實驗是最早嘗試自動翻譯B類線形文字的?!倍錾墓ぷ鞒晒麑C(jī)器翻譯提高到新的水平。但這也引發(fā)了關(guān)于其它失傳語言的疑問尤其是從未被翻譯過的語言,如A類線形文字。

1886年,英國考古學(xué)家亞瑟伊萬斯偶然間發(fā)現(xiàn)了一塊刻印著未知語言的石頭。得知這塊石頭來源于地中海的克里特島后,伊萬斯立馬動身前往此處以搜尋更多證據(jù)。在那里,他馬上就發(fā)現(xiàn)了許多筆跡相似的石碑,這些石碑能追溯到公元前1400年左右,這些刻字也就成為目前發(fā)現(xiàn)的最早的書寫形式之一。伊萬斯表示,這種線形形式是從早期藝術(shù)中粗糙的線條畫演變而來,在語言史上占有重要地位。

伊萬斯等人后來證實,石碑上的刻字是兩種不同的文字系統(tǒng)。稍古老的一種稱為A類線形文字,可以追溯到公元前1800年至1400年,此時克里特島還處于青銅時代的米諾文明階段。時間上更近一點(diǎn)的文字系統(tǒng)稱為B類線形文字,公元前1400年后才出現(xiàn),此時的克里特島正被希臘大陸的邁錫尼人統(tǒng)治著。

許多年來,伊萬斯等人一直試圖翻譯這些古老的文字,但都無疾而終。

這個問題直到1953年,一個名叫邁克爾文特里斯的業(yè)余語言學(xué)家成功翻譯B類線形文字之后,才得到解決。

兩個假設(shè)

文特里斯的成功建立在兩個決定性突破上。第一,他假設(shè)B類線形文字中重復(fù)出現(xiàn)的詞語是克里特島的地名這在其后被證明是正確的。第二,他假設(shè)這些刻字是古希臘語的早期形式這讓他能夠立即翻譯出B類線形文字的其他部分。在翻譯過程中,文特里斯表示,古希臘語的書面表達(dá)形式比之前預(yù)想的還要早幾個世紀(jì)。

文特里斯的工作成果是一項巨大的成就。但像A類線形文字這樣的更為古老的文字系統(tǒng),到今天為止仍然是語言學(xué)上一個亟需解決的難題。

通過機(jī)器學(xué)習(xí)繪制特定語言的聯(lián)結(jié)

不難想象,近年來機(jī)器翻譯的最新進(jìn)展對此有所幫助。

短短幾年內(nèi),注釋數(shù)據(jù)庫和讓機(jī)器從中學(xué)習(xí)的技術(shù)讓語言學(xué)習(xí)發(fā)生了革命性變化,這使得機(jī)器翻譯變得越來越普遍。盡管翻譯質(zhì)量有待提高,但這也提供了思考語言的一個全新角度。

來自麻省理工學(xué)院的羅家明(音譯)和雷吉納巴爾齊萊,以及來自加州山景城谷歌人工智能實驗室的曹源(音譯),由他們組成的團(tuán)隊研發(fā)出了能夠翻譯失傳語言的機(jī)器學(xué)習(xí)系統(tǒng),并且使其翻譯B類線形文字第一次完全自動翻譯證明了系統(tǒng)可行性。

他們所利用的方法與標(biāo)準(zhǔn)機(jī)器翻譯技術(shù)有著顯著區(qū)別。首先需要知道,不管哪種語言,機(jī)器翻譯的關(guān)鍵都在于認(rèn)識到文字間聯(lián)結(jié)的相似性。因此整個過程是從繪制特定語言的聯(lián)結(jié)開始,這需要龐大的文本數(shù)據(jù)庫,機(jī)器在這個文本數(shù)據(jù)庫中查驗每個字符與其他字符在多大頻率上聯(lián)結(jié)在一起。這種表現(xiàn)非常獨(dú)特,它在多重參數(shù)空間上定義了這個詞語。實際上,這個詞語可以視為空間內(nèi)一個向量,這個向量在機(jī)器對任何語言的翻譯結(jié)果中都起到重要的約束作用。

這些向量遵循著簡單的數(shù)學(xué)規(guī)則,舉例而言,國王(king)-男性(man)+女性(woman)=王后(queen)。所以,一句話可以認(rèn)為是由一系列向量排列形成的一條跨越空間的軌跡。

完全對應(yīng)地翻譯

機(jī)器翻譯的關(guān)鍵洞見在于,不同語言中的詞語在各自的參數(shù)空間內(nèi)占據(jù)著相同位置。這使得一種語言能夠完全對應(yīng)地被翻譯成另一種語言。在這個意義上,翻譯句子就變成尋找那些跨越空間的相似軌跡的過程,機(jī)器甚至不需要“知道”句子的具體含義。

這個過程需要依賴大數(shù)據(jù)[注]集。但幾年前,德國的一個研究者團(tuán)隊利用小型數(shù)據(jù)庫協(xié)助翻譯缺少大型文本數(shù)據(jù)庫的稀有語言(+本站微信networkworldweixin),其中的竅門在于找到一種除數(shù)據(jù)庫之外能夠約束機(jī)器的方法。

利用語言進(jìn)化的約束

羅家明團(tuán)隊已經(jīng)進(jìn)一步展示了機(jī)器是怎樣翻譯一門失傳語言的,他們使用的約束與語言隨時間的變化相關(guān)。任何語言都是以某種方式變化的,比如,親屬語言中的符號以相似的分布出現(xiàn),相關(guān)詞語有相同順序的字符,等等。有了這些規(guī)則的約束,如果已知某種古老的語言形式,那么翻譯就會輕松許多。

羅家明團(tuán)隊利用這項技術(shù)測試了兩種失傳語言,B類線形文字和烏加里特語。語言學(xué)家已經(jīng)知道,古希臘語的早期形式是由B類線形文字編碼得到,而在1929年發(fā)現(xiàn)的烏加里特語則是希伯來語的早期形式。

利用這些信息和語言進(jìn)化的約束,羅家明團(tuán)隊研發(fā)的機(jī)器能夠以相當(dāng)高的準(zhǔn)確度完成上述兩種語言的翻譯?!拔覀兡軌蛘_地將67.3%的B類線形文字中的同源詞翻譯成對應(yīng)的希臘語”,他們說,“據(jù)我們所知,本次實驗是最早嘗試自動翻譯B類線形文字的?!倍錾墓ぷ鞒晒麑C(jī)器翻譯提高到新的水平。但這也引發(fā)了關(guān)于其它失傳語言的疑問尤其是從未被翻譯過的語言,如A類線形文字。

在這篇文章中,A類線形文字的缺席顯而易見,羅家明團(tuán)隊甚至沒有提及A類線形文字,但和所有語言學(xué)家一樣,它肯定在他們心中揮之不去。不過可以確定的是,在A類線形文字能夠被機(jī)器準(zhǔn)確翻譯之前,我們還需要一些重要的突破。舉個例子,沒人知道A類線形文字編碼了哪種語言,將它翻譯成古希臘語的嘗試都失敗了。如果不知道祖語言,新技術(shù)也起不了作用。

但是基于機(jī)器的方法存在一個明顯的優(yōu)勢,機(jī)器可以快速而不知疲倦地對每種語言進(jìn)行測試。因此羅家明團(tuán)隊或許可以用一種粗暴的方法攻克A類線形文字的翻譯難關(guān)嘗試將它翻譯成機(jī)器已經(jīng)掌握的每種語言。如果最終成功,那一定是一項偉大的成就,一項足以另邁克爾文特里斯贊嘆不已的成就。