對嘴發聲 – Sing Tao Real Time News

[星島綜合報道] 電影《Westworld》中近乎真人的機械人，一大關鍵在於嘴唇與語音幾乎零延遲同步，令「不像機械」成為可能。現實世界中，這一步正逐步逼近。由美國Columbia University創意機器實驗室（Creative Machines Lab）研發的 EMO 機械人頭部，近日展示一項新能力——不單止能對嘴說話，更能透過觀察人類，自行學習如何「像你一樣」開口發聲。

EMO 並非完整人形機械人，而是一個覆蓋柔軟矽膠「皮膚」的機械頭部，面部下方藏有 26 個微型馬達。研究團隊透過不同組合啟動這些馬達，令面部肌肉產生細緻變化，從表情到嘴形都可高度還原人類說話時的動作。

研究第一步，科研人員將 EMO 放在鏡子前，讓它隨機做出成千上萬種面部動作，並即時「觀察自己」。透過這種自我觀察，系統逐漸建立起「哪一組馬達動作，會對應哪一種視覺表情」的關係模型，屬於一種稱為「視覺到動作」（Vision-to-Action，VLA）的學習方式。換言之，機械人並非被預先寫好表情對照表，而是靠自己試錯學會控制臉部。

完成自我學習後，EMO 再進入第二階段：長時間觀看 YouTube 上大量人類說話及唱歌影片，理解不同語音與嘴形之間的關聯。其人工智能系統其後把這些觀察結果，與自身的 VLA 模型結合，最終在播放合成聲音時，能即時生成相應的唇部動作，達至近似人類的對嘴效果。

研究由哥倫比亞大學博士生Yuhang Hu、教授Hod Lipson等人主導。團隊指出，現階段 EMO 對某些發音（如「B」、「W」）仍掌握不足，但隨着訓練時間增加，準確度有望持續提升，甚至發展出更自然的對話時面部反應。

研究人員亦提到，若未來把這種對嘴系統，與 ChatGPT、Gemini 等對話式人工智能結合，機械人與人類之間的互動將不再只限於「有聲音的回答」，而是加入能引發情感連結的微表情與口型變化，對陪伴型機械人或服務型機械人發展，具潛在影響。

相關研究論文已刊登於國際期刊《Science Robotics》，研究仍屬實驗階段，但已為「會說話、懂表情」的高度仿真人機互動，提供一個可行方向。

圖片：Creative Machines Lab

T10

標籤: 對嘴發聲

科技| AI機械人「會說話、懂表情」自學像人類般對嘴發聲