[星島綜合報道] 在多人同時交談的嘈雜環境中,聽力受限人士往往最為吃力。即使配戴助聽器,亦難以在眾聲喧嘩中清楚分辨對話對象的聲音。美國華盛頓大學研究團隊近日展示一項新型智能耳機技術,透過人工智能分析對話節奏,自動判斷用家正在交談的對象,並即時加強該名說話者的聲音,嘗試解決長期困擾助聽設備的「雞尾酒會效應」。
所謂「雞尾酒會效應」,是指助聽器在放大聲音時,難以只強化單一說話者的聲音,往往會把周圍所有聲音一併放大。當多人在同一空間同時交談、插話,對用家而言反而更混亂,對話體驗大打折扣。
過去數年,華盛頓大學研究人員曾開發多項技術,包括透過頭部朝向鎖定說話者,或建立「聲音氣泡」,只接收一定距離內的聲音。不過,這類方案仍需要用家刻意轉頭,或在多名說話者位於同一距離時失效。
最新展示的技術,則嘗試從「對話本身」入手。研究團隊在一副市售降噪罩耳式耳機上,加入雙耳(binaural)收音咪及兩套AI系統。
第一套AI會先把用家的聲音設定為「錨點」,再辨識周邊其他說話者的聲音特徵。系統會分析誰與用家存在「輪流說話」的節奏——換言之,兩者說話重疊極少,符合自然對話的模式,從而推斷出真正的對話對象。
當目標說話者被鎖定後,第二套AI系統便會把該人的聲音從背景中分離出來,並即時加強播放至耳機中。整個過程毋須用家作出任何手動選擇,屬於主動式運作。
研究指出,系統在播放時雖然存在輕微延遲,但實際感受並不明顯,對對話流暢度影響有限。現階段技術可同時應付最多四名說話者(不包括用家)的群組對話,顯示其在小型社交場合具一定實用潛力。
目前該技術仍以罩耳式耳機作示範平台,研究團隊期望日後可縮小至真無線耳塞,甚至整合至助聽器產品之中。系統已在英語、普通話及日語對話中完成測試,至於其他語言及不同語速、語調的適應能力,仍有待進一步驗證。
論文第一作者、華盛頓大學博士生胡桂林(Guilin Hu)表示,過往相關技術多要求用家自行選擇收聽對象或距離,實際使用體驗並不理想。「我們這次展示的是一種更主動的技術,系統能在非侵入式情況下,自動推斷用家的對話意圖。」
該研究由Gollakota教授帶領,論文已於中國蘇州舉行的「自然語言處理實證方法國際會議(EMNLP)」上發表。研究團隊亦已公開示範影片,展示技術在真實嘈雜環境中的運作效果。
圖片:Hu et al./EMNLP
T10