技術(shù)
導(dǎo)讀:北京時(shí)間5月7日上午,谷歌在第11屆GoogleI/O大會(huì)上發(fā)布了10英寸帶屏音箱NestHubMax,售價(jià)229美元,這也是自Nest并入谷歌后雙方共同打造的第一款產(chǎn)品。
北京時(shí)間5月7日上午,谷歌在第11屆GoogleI/O大會(huì)上發(fā)布了10英寸帶屏音箱NestHubMax,售價(jià)229美元,這也是自Nest并入谷歌后雙方共同打造的第一款產(chǎn)品。
雖然還有不少人質(zhì)疑帶屏智能音箱是雞肋產(chǎn)品,不過與純語音交互相比,帶屏幕的互動(dòng)更直觀。目前,互聯(lián)網(wǎng)巨頭包括亞馬遜、谷歌、Facebook和百度等都推出了帶屏智能音箱,將智能音箱作為入口,提供自己原有的服務(wù)。
市場調(diào)研機(jī)構(gòu)StrategyAnalytics的最新研究顯示,智能音箱是2018年最熱門的消費(fèi)電子產(chǎn)品。2018年第四季度的出貨量增長了95%,達(dá)到3850萬臺(tái),超過了2017年的總量。其中,帶屏智能音箱占智能音箱的總出貨量需求的10%以上。
StrategyAnalytics總監(jiān)華特金斯(DavidWatkins)評(píng)論道:“谷歌的HomeHub、亞馬遜的EchoShow和百度的小度在家等帶屏智能音箱受到消費(fèi)者的歡迎,他們被音視頻結(jié)合吸引。與僅有語音交互而言,帶屏智能音箱使用場景更多。預(yù)計(jì)到2019年,帶屏智能音箱將成為市場增長的重要推動(dòng)力。”
創(chuàng)新落地的載體
“天貓精靈,今天北京天氣如何?”“今天北京天氣晴,12℃~28℃,空氣指數(shù)30。”
擁有天貓精靈音箱的小伙伴對(duì)于上述對(duì)話一定不會(huì)陌生。天貓精靈體現(xiàn)的是對(duì)話式人工智能,整個(gè)人機(jī)交互過程可分為喚醒、識(shí)別、理解、反饋四個(gè)環(huán)節(jié)。
“今天北京天氣如何?”這段語音能夠通過語音識(shí)別轉(zhuǎn)換成文字,提取“今天”、“北京”、“天氣”等關(guān)鍵詞,通過背后的天氣預(yù)報(bào)網(wǎng)站將數(shù)據(jù)調(diào)取出來;從天氣預(yù)報(bào)網(wǎng)站調(diào)取出來的數(shù)據(jù)組裝成自然語音,就是語音合成,即“今天北京天氣晴,12℃~28℃,空氣指數(shù)30。”
“之所以加入阿里巴巴,主要是自己更偏向于技術(shù)落地的工作?!碧熵埦`語音技術(shù)負(fù)責(zé)人聶再清在接受第一財(cái)經(jīng)記者采訪時(shí)表示,此前在微軟亞洲研究院工作時(shí)帶領(lǐng)的研究項(xiàng)目(人立方、微軟學(xué)術(shù)搜索、LUIS)就比較偏創(chuàng)新和實(shí)際技術(shù)落地的結(jié)合。
加入阿里巴巴人工智能實(shí)驗(yàn)后,讓他感受最強(qiáng)烈的是這里創(chuàng)新落地的速度,以及前沿技術(shù)與產(chǎn)品配合的緊密程度。自2017年10月9日加入阿里巴巴以來,聶再清就一直負(fù)責(zé)天貓精靈語音助手算法的研發(fā)工作。
阿里巴巴人工智能實(shí)驗(yàn)室并不是一個(gè)純研究部門,它與業(yè)務(wù)和商業(yè)是緊密相關(guān)的,即使是前沿技術(shù)研發(fā)也是為未來的業(yè)務(wù)與商業(yè)研發(fā)。這意味著,實(shí)驗(yàn)室除了學(xué)術(shù)以外,還有自己的產(chǎn)品以及商業(yè)邏輯。
以連續(xù)對(duì)話能力為例,很多用戶都表示過每次和天貓精靈說話前都要叫一次“天貓精靈”有點(diǎn)累,能不能實(shí)現(xiàn)一個(gè)功能使得用戶在短時(shí)間內(nèi)和天貓精靈的多次交互只需喚醒天貓精靈一次?要實(shí)現(xiàn)這個(gè)連續(xù)對(duì)話能力的最大的技術(shù)挑戰(zhàn)是能夠區(qū)分用戶的哪些話是對(duì)天貓精靈說的,哪些話不是。為了識(shí)別用戶對(duì)天貓精靈說的話這里有兩類信息可用:用戶說的語義內(nèi)容和用戶聲音的強(qiáng)弱、停頓、方向等聲學(xué)特征。
天貓精靈的語音語義科學(xué)家們經(jīng)過多次腦暴,一起獨(dú)創(chuàng)了融合語音和語義特征的混合神經(jīng)網(wǎng)絡(luò),融入了長短期記憶網(wǎng)絡(luò)(LSTM),卷積網(wǎng)絡(luò)(CNN)和注意力機(jī)制(Attention),并結(jié)合預(yù)訓(xùn)練的語言模型,通過海量數(shù)據(jù)的訓(xùn)練,深度網(wǎng)絡(luò)自主學(xué)習(xí)到人機(jī)對(duì)話提取的能力。最終,在讓用戶能夠享受到便捷的連續(xù)交互的同時(shí),實(shí)現(xiàn)了業(yè)界最低的誤打擾率。聶再清透露,目前已經(jīng)有超過一百萬用戶主動(dòng)打開這個(gè)功能,成為語音交互一種新的對(duì)話模式。
不過,每個(gè)人的興趣愛好不同,一個(gè)家庭中多個(gè)成員共用一個(gè)天貓精靈,此前就存在天貓精靈將父母喜歡的歌曲推薦給女兒的情形。
聶再清表示,聲紋算法科學(xué)家和個(gè)性化推薦科學(xué)家一起提出了一種不依賴于聲紋注冊(cè)的開創(chuàng)性的解決方案:把語音指令的聲學(xué)特征在我們的個(gè)性化推薦深度學(xué)習(xí)模型(Transformer)中直接使用,創(chuàng)造性地解決了聲紋注冊(cè)率低和聲紋聚類不準(zhǔn)導(dǎo)致的語音助手多人混用的個(gè)性化推薦技術(shù)難題。大眾盲評(píng)的用戶調(diào)研數(shù)據(jù)顯示,加入聲紋后大大降低了歌曲推薦的興趣混亂程度,有效地解決了多人混用的推薦難題,用戶的人均時(shí)長提升10%。
不再是單純的硬件戰(zhàn)爭
智能音箱的戰(zhàn)爭不再是單純的硬件戰(zhàn)爭,更多場景的升級(jí)和創(chuàng)新功能的加入或許是更加重要的一環(huán)。數(shù)字中國峰會(huì)現(xiàn)場,百度CEO李彥宏稱,以智能音箱為代表的智能家居,可以說是AI時(shí)代搜索的新入口,它讓人們用更自然的方式和機(jī)器進(jìn)行交互,也是家庭里面的信息服務(wù)的入口。
從某個(gè)角度上來說,智能音箱甚至強(qiáng)調(diào)的功能也不僅僅是音箱的基礎(chǔ)功能了。比如,相較于普通智能音箱,帶屏音箱一般增加了屏幕和攝像頭。因此,不僅可以實(shí)現(xiàn)智能音箱原有的播放音樂、查看天氣和新聞、控制智能家居產(chǎn)品等功能,還可以進(jìn)行視頻觀看、視頻通話功能,甚至集成安防功能。
與谷歌上款帶屏音箱HomeHub相比,NestHubMax還增加了廣角的智能攝像頭,并且增大了屏幕尺寸。NestHubMax能實(shí)現(xiàn)在線觀看視頻、家居控制、拍照、安全監(jiān)控和視頻通話等功能。谷歌稱,NestHubMax特別為家庭和朋友聚會(huì)中的共享場所而設(shè)計(jì)。
此次發(fā)布的NestHubMax還增加了臉部匹配(FaceMatch)功能。此項(xiàng)在手機(jī)上已經(jīng)較為常見的人臉解鎖功能落地智能音箱以后,可以將每個(gè)家庭成員需要的特定服務(wù)實(shí)時(shí)呈現(xiàn)或者推送。
谷歌舉例稱,“早上當(dāng)你走進(jìn)廚房時(shí),智能助手知道你的日程安排、通勤細(xì)節(jié)、天氣以及其他當(dāng)天所需的信息來問候你。當(dāng)你下班回家時(shí),HubMax歡迎你回家,并提供要處理的提醒和消息。智能助理為音樂和電視節(jié)目提供個(gè)性化推薦,你甚至可以看到誰給你留下了視頻消息?!?/p>
李彥宏提到,兩年前,百度推出全球第一款帶屏智能音箱小魚在家,又進(jìn)一步激活了百度此前在視頻方面的布局。小魚在家與百度的合作始于2015年,2017年合作推出帶屏智能音箱,2017年4月推出搭載百度DuerOS的新款視頻通話機(jī)器人“分身魚”,2018年3月,百度宣布戰(zhàn)略投資小魚在家,從資源、資金、平臺(tái)等各方面予以支持。2019年2月,小度在家?guī)林悄芤粝涑鲐浟渴状纬^無屏的小度智能音箱。
“如同下棋講究占據(jù)先機(jī),堅(jiān)持技術(shù)創(chuàng)新,就會(huì)讓我們下出‘先手棋’,而不是再做跟隨者。”
就本質(zhì)而言,李彥宏多次多場合對(duì)百度智能音箱的推廣,意在爭奪智能家居入口話語權(quán)。
不過,不管是智能音箱硬件技術(shù),還是遠(yuǎn)場識(shí)別、語音識(shí)別和語義識(shí)別等語音交互技術(shù),都存在不少問題,例如出現(xiàn)誤喚醒率高、連續(xù)對(duì)話不穩(wěn)定、語義理解能力差等情況。有用戶表示,希望能提高識(shí)別率,“現(xiàn)在買智能音箱只用來聽歌、當(dāng)鬧鐘等,而這些手機(jī)語音助手就能完成,真正接入并控制家電的太少了”。
即使在美國,智能音箱最大的用處也是聽音樂。尼爾森此前一份報(bào)告指出,幾乎所有消費(fèi)者(90%)都用智能音箱聽音樂,而68%的人會(huì)聽新聞;大約81%的用戶會(huì)使用語音交互來獲取實(shí)時(shí)信息,例如天氣和交通狀況。
StrategyAnalytics副總裁墨瑟(DavidMercer)表示:“現(xiàn)在問題是,如何通過用戶群獲利,看看每個(gè)玩家如何應(yīng)對(duì)這一挑戰(zhàn)將會(huì)很有趣。第一步是通過智能音箱鼓勵(lì)消費(fèi)者更廣泛和更頻繁地使用應(yīng)用和服務(wù),這將為設(shè)備OEM或平臺(tái)提供商帶來創(chuàng)收機(jī)會(huì)。語音購物和廣告插入是非常明顯的方式?!?/p>