科技| AI智能耳機自動鎖定對話對象　嘈雜環境中提升聆聽清晰度

[星島綜合報道] 在多人同時交談的嘈雜環境中，聽力受限人士往往最為吃力。即使配戴助聽器，亦難以在眾聲喧嘩中清楚分辨對話對象的聲音。美國華盛頓大學研究團隊近日展示一項新型智能耳機技術，透過人工智能分析對話節奏，自動判斷用家正在交談的對象，並即時加強該名說話者的聲音，嘗試解決長期困擾助聽設備的「雞尾酒會效應」。

所謂「雞尾酒會效應」，是指助聽器在放大聲音時，難以只強化單一說話者的聲音，往往會把周圍所有聲音一併放大。當多人在同一空間同時交談、插話，對用家而言反而更混亂，對話體驗大打折扣。

過去數年，華盛頓大學研究人員曾開發多項技術，包括透過頭部朝向鎖定說話者，或建立「聲音氣泡」，只接收一定距離內的聲音。不過，這類方案仍需要用家刻意轉頭，或在多名說話者位於同一距離時失效。

最新展示的技術，則嘗試從「對話本身」入手。研究團隊在一副市售降噪罩耳式耳機上，加入雙耳（binaural）收音咪及兩套AI系統。

第一套AI會先把用家的聲音設定為「錨點」，再辨識周邊其他說話者的聲音特徵。系統會分析誰與用家存在「輪流說話」的節奏——換言之，兩者說話重疊極少，符合自然對話的模式，從而推斷出真正的對話對象。

當目標說話者被鎖定後，第二套AI系統便會把該人的聲音從背景中分離出來，並即時加強播放至耳機中。整個過程毋須用家作出任何手動選擇，屬於主動式運作。

研究指出，系統在播放時雖然存在輕微延遲，但實際感受並不明顯，對對話流暢度影響有限。現階段技術可同時應付最多四名說話者（不包括用家）的群組對話，顯示其在小型社交場合具一定實用潛力。

目前該技術仍以罩耳式耳機作示範平台，研究團隊期望日後可縮小至真無線耳塞，甚至整合至助聽器產品之中。系統已在英語、普通話及日語對話中完成測試，至於其他語言及不同語速、語調的適應能力，仍有待進一步驗證。

論文第一作者、華盛頓大學博士生胡桂林（Guilin Hu）表示，過往相關技術多要求用家自行選擇收聽對象或距離，實際使用體驗並不理想。「我們這次展示的是一種更主動的技術，系統能在非侵入式情況下，自動推斷用家的對話意圖。」

該研究由Gollakota教授帶領，論文已於中國蘇州舉行的「自然語言處理實證方法國際會議（EMNLP）」上發表。研究團隊亦已公開示範影片，展示技術在真實嘈雜環境中的運作效果。

圖片：Hu et al./EMNLP

T10