應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

我國語音技術(shù)如何實現(xiàn)彎道超車?

2020-08-20 13:57 中國家電網(wǎng)

導(dǎo)讀:語音科技,就是一個美國不愿意讓我們發(fā)展的太快的科技。

語音科技,就是一個美國不愿意讓我們發(fā)展的太快的科技。國內(nèi)的語音科技“一哥”科大訊飛,就在去年10月被美國“拉黑”了,當(dāng)時科大訊飛的很多開發(fā)平臺使用的都是美國芯片,被“拉黑”后,在美國的很多實驗室也被迫關(guān)閉。

如果你覺得,美國最近在中美科技戰(zhàn)中過于針對華為和Tiktok,那你就錯了。隨著中美在科技層面的交鋒與沖突不斷升級,美國商務(wù)部開出的實體清單也是一瀉千里。5月23日,實體清單上又多出了33家中國公司,大都為科技公司、科研機構(gòu)。截至5月底,美國實體清單上的中國公司、個人、甚至還有幾所大學(xué),總數(shù)多達1373家,整整309頁PDF文件。

遙想去年5月,這個清單上62個國家和地區(qū)的實體,總共只有1182個。其中俄羅斯以316個實體位居第一,中國只有233個實體上榜,其中80個在香港。

所謂“實體清單”,是美國的出口管制手段。在沒有許可證的情況下,美國任何企業(yè)不得向清單上的實體出口任何東西,也不能幫助這些實體進口任何東西。1997年6月,“實體清單”面世4個月后,中國工程物理研究院,成為了清單上的第一個中國實體。

20多年過去,實體清單已經(jīng)從美國的出口保護手段,變成了阻礙別國科技發(fā)展的打擊手段。

語音科技,就是一個美國不愿意讓我們發(fā)展的太快的科技。

國內(nèi)的語音科技“一哥”科大訊飛,就在去年10月被美國“拉黑”了,當(dāng)時科大訊飛的很多開發(fā)平臺使用的都是美國芯片,被“拉黑”后,在美國的很多實驗室也被迫關(guān)閉。

不過,在同期被“拉黑”的公司中,科大訊飛算是最淡定的。當(dāng)時科大訊飛發(fā)布公告稱,其人工智能核心技術(shù)都是自主研發(fā),而且語音科技在硬件方面對芯片的要求并不是特別高,找到替代品或者自己研發(fā),問題都不大。

本周三,科大訊飛董事長再次提及公司被加入實體名單一事,他表示,目前科大訊飛已經(jīng)有了28nm制程的自研芯片,完全無懼被美國芯片卡脖子。

另一方面,由于谷歌在重壓之下已經(jīng)不再給華為提供語音助手服務(wù),這個服務(wù)將由科大訊飛接手??拼笥嶏w不僅能穩(wěn)穩(wěn)地接住華為,提供的服務(wù)還更好,在歐洲各主要語種方面都能超越谷歌。

可能是受到科大訊飛的自信影響,周五語音技術(shù)板塊5支股票全線拉升。科大訊飛收漲5.05%,是近兩個月內(nèi)的最大單日漲幅。

雖然目前語音技術(shù)的研究方向主要放在專業(yè)領(lǐng)域的語音錄入,比如醫(yī)院、法院等,需要記錄的專業(yè)詞匯多、而且要絕對精準的領(lǐng)域。但是語音技術(shù)離我們?nèi)粘I钭罱膽?yīng)用,正是已經(jīng)非常成熟的手機助手和日漸普及的智能家居。

語音技術(shù)的起步,是語音識別。語音識別技術(shù)主要是把人類的語音內(nèi)容轉(zhuǎn)換成計算機可讀的輸入,不一定是文本,也可能是編碼或者符號。

由于語音交互提供了更自然、更便利、更高效的溝通形式,成為人機互動的主要輸入方法,只是時間問題。

目前,主流語音識別框架還是由 3 個部分組成:聲學(xué)模型、語言模型和解碼器。其中,聲學(xué)模型是熱門的研究方向,也就是業(yè)界跑馬圈地的方向。

語音識別沒有什么技術(shù)壁壘,就比誰的算法更準,因此國內(nèi)外各大企業(yè)前赴后繼的發(fā)布著新的聲學(xué)模型,刷新各個數(shù)據(jù)庫的識別記錄。

由于中文方言的博大精深,語音識別的復(fù)雜性基本拉滿。因此,在聲學(xué)模型方面的研究進展較其他國家都要快一些。在其他國家把英文識別做到了最好的時候,科大訊飛已經(jīng)可以識別中、英、粵三語混說的輸入了。

事實上,語音識別技術(shù)在2010年前后,碰到了天花板,識別率達到了90%,并且難以突破。直到深度學(xué)習(xí)技術(shù)被應(yīng)用到了語音識別中,識別精度才突破了90%,在安靜環(huán)境下的識別精度直逼98%。

從此,語音識別領(lǐng)域的產(chǎn)業(yè)競爭從研發(fā)轉(zhuǎn)為了應(yīng)用。而在語音識別的精度普遍都能達標之后,語音識別也失去了獨立存在的價值,開始更多的為提升其他產(chǎn)品的體驗而服務(wù)。

也就是這個時候,語音識別相關(guān)產(chǎn)品,比如Siri,開始走進人們的視線。不過,Siri們的出現(xiàn)所引起的關(guān)注程度,遠比實戰(zhàn)成績要高的多。Siri面世的時候,谷歌CEO憂心忡忡,認為它會對谷歌的搜索業(yè)務(wù)產(chǎn)生根本性的威脅。