免费久久久久黄片一二三级,久久免费观看潮喷到潮

谷歌研發(fā)開源揚(yáng)聲器Diarization AI技術(shù)

2018-11-27 14:24 前瞻網(wǎng)

導(dǎo)讀：在最近的一篇博客中，谷歌宣布他們已經(jīng)開源了他們的揚(yáng)聲器Diarization技術(shù)，該技術(shù)能夠以高準(zhǔn)確率區(qū)分人們的聲音。谷歌可以通過將包含多個(gè)參與者的音頻流劃分為每個(gè)參與者的同質(zhì)段來實(shí)現(xiàn)這一點(diǎn)。

在最近的一篇博客中，谷歌宣布他們已經(jīng)開源了他們的揚(yáng)聲器Diarization技術(shù)，該技術(shù)能夠以高準(zhǔn)確率區(qū)分人們的聲音。谷歌可以通過將包含多個(gè)參與者的音頻流劃分為每個(gè)參與者的同質(zhì)段來實(shí)現(xiàn)這一點(diǎn)。

將語音劃分成同質(zhì)段有許多應(yīng)用。谷歌的研究科學(xué)家Chong Wang解釋說:

通過解決“誰說了什么時(shí)候”的問題，說話人二值化在許多重要場(chǎng)景中都有應(yīng)用，如理解醫(yī)療對(duì)話、視頻字幕等。

能夠準(zhǔn)確地分割會(huì)話可以提高在線和離線Diarization系統(tǒng)的質(zhì)量。這種好處在醫(yī)療保健行業(yè)有很多實(shí)際的好處，正如最近的年報(bào)家庭醫(yī)學(xué)雜志報(bào)道的那樣:

醫(yī)生通常在11個(gè)小時(shí)的工作日里花6個(gè)小時(shí)在電子健康檔案(EHR)上。因此，一項(xiàng)研究發(fā)現(xiàn)，接受調(diào)查的醫(yī)生中，超過一半的人報(bào)告至少有一種倦怠癥狀。

使用監(jiān)督學(xué)習(xí)方法來訓(xùn)練語音聽寫系統(tǒng)在歷史上一直具有挑戰(zhàn)性，Wang解釋了原因:

使用監(jiān)督學(xué)習(xí)方法對(duì)這些系統(tǒng)進(jìn)行訓(xùn)練是具有挑戰(zhàn)性的——與標(biāo)準(zhǔn)的監(jiān)督分類任務(wù)不同，穩(wěn)健的Diarization模型需要將新個(gè)體與未參與訓(xùn)練的不同語音片段關(guān)聯(lián)起來。重要的是，這限制了在線和離線Diarization系統(tǒng)的質(zhì)量。

在流媒體音頻輸入上使用在線揚(yáng)聲器Diarization，可以檢測(cè)不同揚(yáng)聲器，如下圖所示，在底部軸上用不同顏色表示不同的揚(yáng)聲器。

谷歌開發(fā)了一篇名為《Fully Supervised Speaker Diarization》的研究論文，他們引入了一種新的模型，這種模型比傳統(tǒng)方法更有效地使用監(jiān)督揚(yáng)聲器標(biāo)簽。在這個(gè)模型中，會(huì)進(jìn)行一個(gè)評(píng)估，確定參與會(huì)話的說話者的數(shù)量，從而增加標(biāo)記數(shù)據(jù)的數(shù)量。

作為NIST SRE 2000 CALLHOME基準(zhǔn)測(cè)試的一部分，谷歌的技術(shù)實(shí)現(xiàn)了低至7.6%的Diarization錯(cuò)誤率，其中Diarization錯(cuò)誤率被定義為“被Diarization輸出錯(cuò)誤標(biāo)記的輸入信號(hào)的百分比”。最近的結(jié)果是對(duì)基于聚類的方法獲得的8.8%的Diarization錯(cuò)誤率和使用深度神經(jīng)網(wǎng)絡(luò)嵌入方法獲得的9.9%Diarization錯(cuò)誤率進(jìn)行了改進(jìn)。

現(xiàn)代揚(yáng)聲器Diarization系統(tǒng)通常利用聚類算法，如k均值或光譜聚類。Wang解釋了使用這些方法的一些缺點(diǎn):

由于這些聚類方法是非監(jiān)督的，不能很好地利用數(shù)據(jù)中可用的監(jiān)督說話人標(biāo)簽。此外，在線聚類算法通常在流媒體音頻輸入的實(shí)時(shí)Diarization應(yīng)用中質(zhì)量較差。該模型與常用聚類算法的關(guān)鍵區(qū)別在于，該方法采用參數(shù)共享遞歸神經(jīng)網(wǎng)絡(luò)(RNN)對(duì)所有說話人的嵌入進(jìn)行建模，并利用在時(shí)域內(nèi)交叉的不同RNN狀態(tài)，對(duì)不同的說話人進(jìn)行區(qū)分。

為了說明這個(gè)模型是如何工作的，考慮4個(gè)不同的揚(yáng)聲器(該模型可以支持未知數(shù)量的揚(yáng)聲器)，每個(gè)揚(yáng)聲器都用自己的顏色(藍(lán)色、黃色、粉色和綠色)表示。每個(gè)揚(yáng)聲器都有自己的RNN實(shí)例，其中初始狀態(tài)在所有揚(yáng)聲器之間共享。一個(gè)演講者將繼續(xù)更新他們的RNN，直到另一個(gè)演講者開始講話。例如，藍(lán)色的音箱可以開始對(duì)話，直到它轉(zhuǎn)換到黃色音箱為止。在這兩個(gè)時(shí)間段內(nèi)，每個(gè)發(fā)言者在發(fā)言時(shí)都會(huì)更新他們的RNN。當(dāng)對(duì)話從一個(gè)發(fā)言者轉(zhuǎn)換到另一個(gè)發(fā)言者時(shí)，所有參與者都會(huì)出現(xiàn)這種情況。

Wang解釋了為什么使用RSS狀態(tài)很重要:

將說話人表示為RNN狀態(tài)使我們能夠使用RNN參數(shù)學(xué)習(xí)不同說話人和話語之間共享的高級(jí)知識(shí)，這保證了更多標(biāo)記數(shù)據(jù)的有用性。與此相反，常見的聚類算法幾乎總是獨(dú)立地處理單個(gè)話語，因此很難從大量標(biāo)記數(shù)據(jù)中獲益。

下一步，谷歌將繼續(xù)降低Diarization錯(cuò)誤率，整合上下文信息進(jìn)行離線解碼。為了進(jìn)一步了解揚(yáng)聲器Diarization技術(shù)，谷歌發(fā)表了一篇論文，并在GitHub上提供了它的源代碼。

谷歌研發(fā)開源揚(yáng)聲器Diarization AI技術(shù)

相關(guān)閱讀