導(dǎo)讀:一場由語音交互的變革看起來勢在必行了。
圖片來自“123RF”
通過語音控制技術(shù),更多型式的智能裝置得以在家中的生活空間取得更大的地位,更多物聯(lián)網(wǎng)裝置得以更容易地進(jìn)入家庭領(lǐng)域。未來,離線語音以及離線加在線語音等多種語音形式,將更加廣泛地應(yīng)用于智能家居、智能辦公等多種場景。
現(xiàn)在“會說話”的公共設(shè)施會越來越多,未來每一個空間都至少會有一個可以進(jìn)行語音交互的觸點(diǎn)。語音技術(shù)的需求也隨之提高,在線語音后的離線語音技術(shù)被視為智能家居新的增長引擎便不足為奇了。
智能語音是智能家居的起點(diǎn)
國外的IT巨頭已先后以智能家庭產(chǎn)品與語音相結(jié)合的方式進(jìn)入智能家庭領(lǐng)域:
·谷歌收購NEST布局智能家庭,不斷強(qiáng)化GoogleNow的語音入口;
·蘋果HomeKit智能家居平臺與Siri也不斷加強(qiáng)融合;
·微軟也發(fā)布了語音助手Cortana,為它在智能家庭領(lǐng)域擴(kuò)展交互入口。
而國內(nèi)2014年語音巨頭科大訊飛就宣布進(jìn)軍智能家庭市場,并發(fā)布了智能語音助手靈犀3.0來操控智能家居設(shè)備。
由于整個市場的價(jià)格競爭比較激烈,基于智能音箱通過藍(lán)牙m(xù)esh的方式推廣的智能音箱中心化控制的語音聲控類的產(chǎn)品價(jià)格競爭尤其明顯,利潤逐步被稀釋。無論是Google、Apple或是微軟等平臺業(yè)者,透過語音控制技術(shù)讓更多型式的智能裝置能在家中的生活空間取得更大的地位,讓更多物聯(lián)網(wǎng)裝置更容易進(jìn)入家庭的領(lǐng)域。所以語音助理的應(yīng)用不僅為家庭生活帶來更多的驚奇,也進(jìn)而帶動智能家居在目前有較明顯的進(jìn)展。
語音控制中的不良反饋
①智能音箱通過網(wǎng)絡(luò)在云端識別反饋的控制速度比較慢,通常網(wǎng)絡(luò)一般的情況下反饋時長為300—500ms,網(wǎng)絡(luò)情況良好的情況下也有300ms左右。
②智能音箱通過半徑3米—5米內(nèi)才可以語音控制其他設(shè)備。假設(shè)智能音箱放在客廳,那控制臥室的燈必須要在客廳實(shí)現(xiàn),如果身處臥室想控制臥室的燈就比較麻煩。
③絕大多數(shù)的云端識別都會在后臺錄音,相當(dāng)于用戶在家里不知不覺的情況下聲音的隱私已經(jīng)被侵犯,并上傳到云端做了保存。這點(diǎn)在歐美和日本客戶那里的反饋比較明顯,國人也對聲音的隱私開始重視起來。
市場成熟后的需求變化
目前,智能家居已經(jīng)進(jìn)入市場推廣階段,并且有很多成熟項(xiàng)目不斷落地,行業(yè)發(fā)展前景可謂是日趨明朗。但是隨著智能門鈴、智能貓眼、智能廚房電器以及睡眠跟蹤記錄傳感器等設(shè)備的廣泛應(yīng)用,現(xiàn)在智能家居甚至已經(jīng)延伸到家庭中最私密的區(qū)域。
智能家居技術(shù)給人們?nèi)粘I顜砹藰O大的便利,比如讓你知道加熱器是否打開或門有沒有鎖上等等,但這些連接的設(shè)備也帶來了許多安全問題。語音控制作為智能家居入口,在控制過程中牽涉到網(wǎng)絡(luò)傳輸?shù)牟糠?,對于智能家居系統(tǒng)是否安全起到至關(guān)重要的作用。
智能語音后的離線語音
離線的簡單語音控制應(yīng)用在這幾個問題上得到了有效的解決,通常家電和小家電的應(yīng)用場景的控制也只有幾個功能性動作就能解決。應(yīng)用場景就是切入到用戶的這個需求點(diǎn),分布式地提供給用戶單個產(chǎn)品的針對性的聲音控制。不需要基于手機(jī)、智能音箱和網(wǎng)絡(luò)就可以通過聲音進(jìn)行控制。
·TOC領(lǐng)域包括高性價(jià)比智能音箱、全雙工網(wǎng)絡(luò)電話、AIOT智能家電、后裝車載智能語音助手等。家電控制(空調(diào)、洗衣機(jī)、冰洗、熱水器、風(fēng)扇等)并支持分布式語音控制和聯(lián)動。
在網(wǎng)絡(luò)狀況不好或者沒有網(wǎng)絡(luò)的情況下,可以使用基礎(chǔ)控制的本地命令詞進(jìn)行離線控制。
·TOB領(lǐng)域包括酒店智能語音助手(云端語義針對酒店服務(wù)應(yīng)用可定制化,如:客房服務(wù)、訂餐服務(wù))包括可植入酒店空調(diào)、酒店控制面板、酒店客房電話等設(shè)備應(yīng)用。智能校園宿舍管理(云端可針對宿舍房間號定點(diǎn)推送上課通知、語音控制、網(wǎng)絡(luò)電話等)。
實(shí)際上,全屋智能的控制類產(chǎn)品都是離線語音的主戰(zhàn)場。離線主打控制,在線主打交互,是目前智能家居落地比較親民的一種模式。
各家不同的離線語音方案
·啟英泰倫:
CI110X 系列基于 NPU+MCU 架構(gòu)設(shè)計(jì),內(nèi)置升級了的腦神經(jīng)網(wǎng)絡(luò)處理器 BNPU v2,并新增了語音加速傳感器。CPU 主頻也較上一代的 100 MHz 提升到了 160MHz。
同時該芯片還集成多路 UART、I2C、SPI、PWM、GPIO 等外圍控制接口,可以開發(fā)低成本的單芯片智能語音離線識別方案。基于 CI110X 系列芯片開發(fā)的產(chǎn)品,語音交互的基本功能可通過離線語音實(shí)現(xiàn),而語音內(nèi)容和服務(wù)則可以通過聯(lián)網(wǎng)實(shí)現(xiàn)。
·杭州國芯:
GX8008芯片是專為智能語音前端信號處理而設(shè)計(jì)的嵌入式SoC芯片,支持麥克風(fēng)陣列,集成專用于語音信號處理的DSP處理器,內(nèi)置處理前端信號的語音算法,可以讓傳統(tǒng)的設(shè)備保留其原先硬件的基礎(chǔ)上,通過一個簡單的USB口實(shí)現(xiàn)語音能力的升級。
GX8009芯片是專為AI語音應(yīng)用設(shè)計(jì)的嵌入式SoC芯片,擁有獨(dú)特的多核異構(gòu)架構(gòu),集成自主產(chǎn)權(quán)的NPU神經(jīng)網(wǎng)絡(luò)處理器,用于語音信號處理的DSP處理器等模塊,使得產(chǎn)品能處理深度神經(jīng)網(wǎng)絡(luò)計(jì)算,離線運(yùn)行麥克風(fēng)陣列信號。
·思必馳:
TH1520主要面向智能家居、智能終端、車載、手機(jī)、可穿戴設(shè)備等各類終端設(shè)備。解決方案包含算法+芯片,具有完整語音交互功能,能實(shí)現(xiàn)語音處理、語音識別、語音播報(bào)等功能,支持離線語音交互。
·君正:
采用君正 X1000E 處理器,最高1GHz主頻,支持硬件浮點(diǎn),支持SIMD指令加速??蛇\(yùn)行各類語音識別、圖像識別、降噪、消回音、APE/FLAC解碼等算法。待機(jī)功耗2mW,平均運(yùn)行功耗200mW,最高運(yùn)行功耗700mW。
·互問:
LS416 是一顆高度集成化的語音處理芯片,內(nèi)置互問離線語音識別引擎,支持多命令詞本地語音控制應(yīng)用。 內(nèi)置spi flash 和高性能codec,使用低成本輕量化神經(jīng)網(wǎng)絡(luò)語音處理單元,以及低功耗MCU,支持多種邏輯應(yīng)用開發(fā)。
W02x芯片是一款高度集成的本地語音系統(tǒng)級芯片(SoC),自研基于神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的本地喚醒和前端降噪算法,無需額外license。
離線語音技術(shù)需克服重重困難
離線語音解決的基本問題包括本地語音識別、本地計(jì)算、部分的數(shù)據(jù)訓(xùn)練。相應(yīng)的,對于硬件的要求就是低功耗、低成本、快速響應(yīng)。
由于語音交互類的設(shè)備本身在產(chǎn)品形態(tài)上差異化很大,使用場景也呈現(xiàn)出碎片化的特點(diǎn),要為用戶提供自然的本地語音交互體驗(yàn),就要對不同的產(chǎn)品做出不同的語音控制命令,這些都需要通過修改代碼實(shí)現(xiàn),工作量可想而知。
再進(jìn)一步的讓設(shè)備達(dá)到用戶所需要的體驗(yàn),還要做效果調(diào)優(yōu)的工作,這就需要熟練的工程師。總而言之,是有不少開發(fā)門檻和開發(fā)成本的。
結(jié)尾:
到2023年,21%將擁有遠(yuǎn)程監(jiān)控和控制,設(shè)備支出將占智能家居設(shè)備總支出的52%。未來,離線語音以及離線加在線語音等多種語音形式,將更加廣泛地應(yīng)用于智能家居、智能辦公等多種場景。
智能家居以家庭為單元,運(yùn)用多種信息技術(shù),達(dá)到監(jiān)控與信息交互的目的,在未來,居住更加智能、消費(fèi)者的居住體驗(yàn)更加舒適,一場由語音交互的變革看起來勢在必行了。