語音識別技術最新進展:視聽融合的多模態交互成為主要演進方向
2023-12-28 21:23:30??????點擊:
電子發燒友網報道(文/李彎彎)所謂“模態”,英文是modality,用通俗的話說,就是“感官”,多模態即將多種感官融合。多模態交互技術是近年來人工智能領域的一項重要創新。隨著語音識別技術的發展,采用多種模態(聲學、語言模型、視覺特征等)進行聯合建模,基于深度學習的多模態語音識別取得了新進展。
多模態交互的原理及優勢
多模態交互技術融合了多種輸入方式,包括語音、手勢、觸摸和眼動等,使用戶可以根據自己的喜好和習慣選擇最方便的交互方式。多模態交互通過將不同輸入方式的數據進行融合和處理,實現更準確、智能的交互響應,提高用戶體驗。
上周在星宸科技2023開發者大會暨產品發布會論壇上,科大訊飛企業數字化副總裁盧堯談到,人工智能有三個層次,1、運算智能:能存會算;2、感知智能:能聽會說,能看會認;3、認知智能:能理解會思考。而感知智能典型的進展是多模態交互。
從盧堯的介紹來看,融合了視覺和語音的多模態免喚醒系統具有明顯優勢。如下圖:這套多模態免喚醒交互系統,同時采用視覺檢測和語音識別交互,誤喚醒率僅為0.01%,交互響應成功率相較于僅基于語音識別交互系統大幅提升。
wKgaomWMymCACWUdAAZDJDahffk724.jpg
早在今年5月,科大訊飛AI研究院副院長高建清博士就在某論壇上介紹過公司在多模態語音交互技術方面的最新進展。據高建清介紹,科大訊飛依托語音與視覺方面的多年積累,打造了一套語音、視覺多模態融合的免喚醒多模態交互系統。
通過將麥克風提供的空間信息和音視頻提供的說話人相關信息進行融合綁定,實現高準確度的說話人分離;通過多模態VAD與端到端意圖技術的結合,實現無喚醒詞的自然人機交互,具有可靠、自然、魯棒的特點。
具體來看,基于多模態多通道的語音分離系統,將語音信號、麥克風陣列提供的空間信息以及主說話人的唇形輸入分離模型,系統最終輸出視頻說話人的語音,抑制背景噪聲及干擾說話人語音。在多人同時講話、車載音樂情況下,語音識別效果相比單模分離系統有50%以上性能提升。不僅解決了傳統麥克風陣列方法無法有效區分同向干擾的問題,還可提升非同向干擾分離場景的性能。
多模態交互技術的應用
語音識別是人工智能技術的一個重要分支,近些年來,智能語音也在多項技術難點上取得突破。業界普遍認為,在語音識別方面,視聽融合的多模態交互技術成為技術演進的主要方向。
科大訊飛是國內主要的智能語音技術玩家,其多模語音增強技術融合語音與視覺的多模感知,讓高噪音場景下的語音交互跨過實用門檻,目前已經在車載、會議、地鐵購票和醫療掛號等場景落地。
wKgaomWMymyAGg6TAAa96QItwQ8667.jpg
在車載領域,人機交互系統需要攻克兩大難題:一是環境噪音及人聲干擾,尤其是麥克風陣列技術難以解決的同向人聲干擾問題(如:駕駛員與左后方乘客同時說話);二是傳統語音交互系統每次啟動交互都需要說喚醒詞,難以做到像人與人交流一樣自然順暢。
此前就有消息顯示,科大訊飛多模態免喚醒交互解決方案將率先在廣汽傳祺和威馬等自主品牌車型上部署應用。該方案能夠適應復雜光線暗、語音嘈雜等多種工況,并支持主流SOC和DMS攝像頭。
在地鐵購票場景中,此前因為地鐵站點太多,買票難以找到目的地站點,而且這些操作對于老年人不太友好,而語音購票的功能讓這些問題迎刃而解。同時,因為地鐵站人聲嘈雜,也使得語音交互的體驗并不友好。
根據此前的報道,深圳地鐵12號線智能售票機及智慧客服終端上,率先采用了科大訊飛多模語音增強技術,該技術通過識別人臉唇形等信息,同時結合人聲,使得即使在人聲嘈雜的環境,語音識別的準確率也大大提升。
多模態語音識別技術在智能家居場景中也非常實用。融合語音、手勢、視覺感知,用戶可以過簡單的口頭指令控制智能家居設備,實現智能燈光、家居安防等功能,通過攝像頭和深度學習技術,智能家居可以識別用戶的手勢動作,實現手勢控制家居設備的操作。同時,通過視覺感知技術,識別用戶的面部表情和情緒狀態,根據不同情況提供相應的互動體驗。
總結
經過多年的發展,語音識別技術已經相當成熟,并且在車載、智能家居等各種場景中實現應用,并給人們的生活帶來便利。然而同時,一直以來語音識別也存在諸多難點,比如環境噪聲、多人同時發出聲音等情況,都會影響語音識別的準確率。而視聽融合的多模態技術,將視覺和語音結合,能夠很好的解決這些問題,使得語音識別的準確率大幅提升。
- 上一篇:中國申請半導體專利占比增至71.7%:國產芯片真的崛起 2023/12/28
- 下一篇:關于尼得科美國子公司以戰略合作為目的向Gore Street 2023/12/25