科技| AI機械人「會說話、懂表情」 自學像人類般對嘴發聲

[星島綜合報道] 電影《Westworld》中近乎真人的機械人,一大關鍵在於嘴唇與語音幾乎零延遲同步,令「不像機械」成為可能。現實世界中,這一步正逐步逼近。由美國Columbia University創意機器實驗室(Creative Machines Lab)研發的 EMO 機械人頭部,近日展示一項新能力——不單止能對嘴說話,更能透過觀察人類,自行學習如何「像你一樣」開口發聲。

EMO 並非完整人形機械人,而是一個覆蓋柔軟矽膠「皮膚」的機械頭部,面部下方藏有 26 個微型馬達。研究團隊透過不同組合啟動這些馬達,令面部肌肉產生細緻變化,從表情到嘴形都可高度還原人類說話時的動作。

研究第一步,科研人員將 EMO 放在鏡子前,讓它隨機做出成千上萬種面部動作,並即時「觀察自己」。透過這種自我觀察,系統逐漸建立起「哪一組馬達動作,會對應哪一種視覺表情」的關係模型,屬於一種稱為「視覺到動作」(Vision-to-Action,VLA)的學習方式。換言之,機械人並非被預先寫好表情對照表,而是靠自己試錯學會控制臉部。

完成自我學習後,EMO 再進入第二階段:長時間觀看 YouTube 上大量人類說話及唱歌影片,理解不同語音與嘴形之間的關聯。其人工智能系統其後把這些觀察結果,與自身的 VLA 模型結合,最終在播放合成聲音時,能即時生成相應的唇部動作,達至近似人類的對嘴效果。

研究由哥倫比亞大學博士生Yuhang Hu、教授Hod Lipson等人主導。團隊指出,現階段 EMO 對某些發音(如「B」、「W」)仍掌握不足,但隨着訓練時間增加,準確度有望持續提升,甚至發展出更自然的對話時面部反應。

研究人員亦提到,若未來把這種對嘴系統,與 ChatGPT、Gemini 等對話式人工智能結合,機械人與人類之間的互動將不再只限於「有聲音的回答」,而是加入能引發情感連結的微表情與口型變化,對陪伴型機械人或服務型機械人發展,具潛在影響。

相關研究論文已刊登於國際期刊《Science Robotics》,研究仍屬實驗階段,但已為「會說話、懂表情」的高度仿真人機互動,提供一個可行方向。

圖片:Creative Machines Lab

T10