鏡頭結合AI – Sing Tao Real Time News

[星島綜合報道]隨着人工智能與穿戴式裝置不斷融合，研究人員正嘗試將「視覺理解」功能引入日常配件。一款名為 VueBuds 的實驗性AI耳機，近日於學術會議上亮相，其最大特點是在耳機內加入微型鏡頭，配合語音AI模型，讓用戶可以透過語音即時了解眼前事物，為視障人士及日常應用帶來新想像，同時亦引發私隱關注。

VueBuds由University of Washington研究團隊開發，現階段原型基於Sony WF-1000XM3改裝，在耳機內嵌入米粒大小的黑白鏡頭。裝置配合視覺語言模型（VLM），用戶只需開口提問，例如詢問路牌意思或辨識物件，系統即可即時分析畫面並以語音回應。

研究人員形容，這類應用類似「語音版反向圖片搜尋」，可提供描述、解釋及翻譯功能。例如在示範中，用戶對着廚房環境提問，AI能在約一秒內描述場景；面對唱片封面，亦可準確說出專輯名稱。

為解決耳機體積與電力限制，VueBuds採用低解析度黑白鏡頭，每個鏡頭耗電少於5毫瓦，並會自動間歇啟動以節省電量。系統透過雙鏡頭模擬人類雙眼的立體視覺，將兩側影像整合分析。

根據研究測試，在物件辨識及翻譯任務中，準確率約為83%；在書名及作者識別方面則達93%。研究人員指出，其回應質素已接近市面同類AI穿戴裝置水平。

團隊強調，將鏡頭置於耳機而非眼鏡，是考慮到用戶接受度及私隱問題。過去智能眼鏡產品因外觀及偷拍疑慮備受批評，而耳機作為普及配件，較不易引起反感。

此外，VueBuds只拍攝低解析度靜態影像，而非高畫質影片，並減少雲端傳輸，理論上可降低個人數據外洩風險。

不過，現階段技術仍有不足。由於採用黑白鏡頭，系統無法回答涉及顏色的問題；而在導航或複雜場景理解方面，亦受限於影像質素及運算能力。此外，電池亦未能支持長時間連續影像處理。

儘管設計強調低調與節能，但外界關注，耳機鏡頭難以被旁人察覺，若結合人臉識別等技術，或帶來監控風險。研究團隊亦承認，目前僅有基本提示燈提示裝置運作，未必足以釋除公眾疑慮。

圖片：Kim et al./CHI ‘26

T10

標籤: 鏡頭結合AI

科技|耳機內置鏡頭結合AI 語音變身「即時解說員」準確度八成以上