唇語識別專利加持,蘋果或?yàn)轭^戴設(shè)備破局大眾化
為推動(dòng)Vision Pro的普及,蘋果再推新舉措。近期曝光的一項(xiàng)獲批專利顯示,其未來頭戴設(shè)備將支持唇語識別技術(shù),用戶無需發(fā)聲,僅通過唇部動(dòng)作即可向設(shè)備下達(dá)指令。

在名為“帶有語音輸入結(jié)構(gòu)的電子設(shè)備”的專利文件中,蘋果描述了在佩戴者無法說話的場景下,設(shè)備可通過內(nèi)置視覺傳感器讀取唇語實(shí)現(xiàn)語音輸入。若該專利技術(shù)落地,將為當(dāng)前頭戴設(shè)備市場帶來積極變革。
隨著小米、阿里等企業(yè)相繼入局,AI眼鏡熱潮已然興起。然而,看似火熱的市場背后,產(chǎn)品卻面臨嚴(yán)峻挑戰(zhàn)。據(jù)VR Vision統(tǒng)計(jì),抖音電商平臺上AI眼鏡的平均退貨率高達(dá)40%-50%。用戶將其列為“吃灰神器”的原因中,除佩戴負(fù)擔(dān)重外,語音交互體驗(yàn)不佳是主要痛點(diǎn)之一。

智能音箱因使用場景集中于家庭,與語音交互適配度較高;但AI眼鏡、XR頭顯的使用場景常涉及公共場合,語音交互的局限性便凸顯出來。
盡管AI大模型技術(shù)推動(dòng)了語義識別能力的提升,配合降噪引擎可精準(zhǔn)捕捉佩戴者指令,但公共場合下,用戶對著設(shè)備說話易產(chǎn)生羞恥感。且復(fù)雜環(huán)境中,即便降噪技術(shù)先進(jìn),仍需用戶提高音量操控設(shè)備,這既違背公序良俗,也可能泄露隱私。
十年前馬化騰曾提及,騰訊未重點(diǎn)發(fā)展語音助手,正是考慮到公共場合使用時(shí)的尷尬與隱私問題,多數(shù)用戶寧可手動(dòng)操作也不愿“對著空氣說話”。

AI眼鏡的拍攝功能本就存在隱私爭議,語音交互又加重了用戶在公共場合的心理負(fù)擔(dān)。此外,音頻信息量大但處理耗時(shí),且聽覺在上下文聯(lián)想上不如視覺友好,導(dǎo)致語音交互更耗精力。
廠商并非不知語音交互的缺陷,只是當(dāng)前它是性價(jià)比最高的方案。若要優(yōu)化語音識別、遠(yuǎn)場拾音等技術(shù)以適應(yīng)低聲紋,成本會大幅上升,縮小受眾范圍;若降低成本,則社交壓力問題難以解決。

語音交互前,智能眼鏡的主要交互方式是鏡腿觸控,但頻繁舉手操作不符合人體工學(xué),易產(chǎn)生疲勞。而TWS耳機(jī)觸控可行,是因其交互場景頻率較低。
在觸控交互不適配、語音交互有缺陷的情況下,蘋果的唇語識別技術(shù)提供了新方向。無聲輸入模式既解決了公共場合的社交壓力,又保障了隱私。唇語識別技術(shù)已較為成熟,通過成熟AI視覺模型即可實(shí)現(xiàn)。

通過向AI模型輸入不同語言的唇部動(dòng)作數(shù)據(jù)并充分訓(xùn)練,設(shè)備可精準(zhǔn)識別用戶指令。若解決識別率問題,頭戴設(shè)備在公共場合普及的最大障礙將被清除。

當(dāng)用戶能無顧慮使用頭戴設(shè)備時(shí),這類產(chǎn)品便有望從小眾嘗鮮品轉(zhuǎn)變?yōu)榇蟊娀?a href="http://m.quanfeilong.cn/project/daxiaofei">消費(fèi)電子產(chǎn)品。
本文來自微信公眾號“三易生活”(ID:IT-3eLife),作者:三易菌,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請?jiān)谖闹凶⒚鱽碓醇白髡呙帧?/p>
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com



