[星島綜合報道]隨着人工智能與穿戴式裝置不斷融合,研究人員正嘗試將「視覺理解」功能引入日常配件。一款名為 VueBuds 的實驗性AI耳機,近日於學術會議上亮相,其最大特點是在耳機內加入微型鏡頭,配合語音AI模型,讓用戶可以透過語音即時了解眼前事物,為視障人士及日常應用帶來新想像,同時亦引發私隱關注。
VueBuds由University of Washington研究團隊開發,現階段原型基於Sony WF-1000XM3改裝,在耳機內嵌入米粒大小的黑白鏡頭。裝置配合視覺語言模型(VLM),用戶只需開口提問,例如詢問路牌意思或辨識物件,系統即可即時分析畫面並以語音回應。
研究人員形容,這類應用類似「語音版反向圖片搜尋」,可提供描述、解釋及翻譯功能。例如在示範中,用戶對着廚房環境提問,AI能在約一秒內描述場景;面對唱片封面,亦可準確說出專輯名稱。
為解決耳機體積與電力限制,VueBuds採用低解析度黑白鏡頭,每個鏡頭耗電少於5毫瓦,並會自動間歇啟動以節省電量。系統透過雙鏡頭模擬人類雙眼的立體視覺,將兩側影像整合分析。
根據研究測試,在物件辨識及翻譯任務中,準確率約為83%;在書名及作者識別方面則達93%。研究人員指出,其回應質素已接近市面同類AI穿戴裝置水平。
團隊強調,將鏡頭置於耳機而非眼鏡,是考慮到用戶接受度及私隱問題。過去智能眼鏡產品因外觀及偷拍疑慮備受批評,而耳機作為普及配件,較不易引起反感。
此外,VueBuds只拍攝低解析度靜態影像,而非高畫質影片,並減少雲端傳輸,理論上可降低個人數據外洩風險。
不過,現階段技術仍有不足。由於採用黑白鏡頭,系統無法回答涉及顏色的問題;而在導航或複雜場景理解方面,亦受限於影像質素及運算能力。此外,電池亦未能支持長時間連續影像處理。
儘管設計強調低調與節能,但外界關注,耳機鏡頭難以被旁人察覺,若結合人臉識別等技術,或帶來監控風險。研究團隊亦承認,目前僅有基本提示燈提示裝置運作,未必足以釋除公眾疑慮。
圖片:Kim et al./CHI ‘26
T10