科技| AI機械人「會說話、懂表情」 自學像人類般對嘴發聲

[星島綜合報道] 電影《Westworld》中近乎真人的機械人,一大關鍵在於嘴唇與語音幾乎零延遲同步,令「不像機械」成為可能。現實世界中,這一步正逐步逼近。由美國Columbia University創意機器實驗室(Creative Machines Lab)研發的 EMO 機械人頭部,近日展示一項新能力——不單止能對嘴說話,更能透過觀察人類,自行學習如何「像你一樣」開口發聲。

EMO 並非完整人形機械人,而是一個覆蓋柔軟矽膠「皮膚」的機械頭部,面部下方藏有 26 個微型馬達。研究團隊透過不同組合啟動這些馬達,令面部肌肉產生細緻變化,從表情到嘴形都可高度還原人類說話時的動作。

研究第一步,科研人員將 EMO 放在鏡子前,讓它隨機做出成千上萬種面部動作,並即時「觀察自己」。透過這種自我觀察,系統逐漸建立起「哪一組馬達動作,會對應哪一種視覺表情」的關係模型,屬於一種稱為「視覺到動作」(Vision-to-Action,VLA)的學習方式。換言之,機械人並非被預先寫好表情對照表,而是靠自己試錯學會控制臉部。

完成自我學習後,EMO 再進入第二階段:長時間觀看 YouTube 上大量人類說話及唱歌影片,理解不同語音與嘴形之間的關聯。其人工智能系統其後把這些觀察結果,與自身的 VLA 模型結合,最終在播放合成聲音時,能即時生成相應的唇部動作,達至近似人類的對嘴效果。

研究由哥倫比亞大學博士生Yuhang Hu、教授Hod Lipson等人主導。團隊指出,現階段 EMO 對某些發音(如「B」、「W」)仍掌握不足,但隨着訓練時間增加,準確度有望持續提升,甚至發展出更自然的對話時面部反應。

研究人員亦提到,若未來把這種對嘴系統,與 ChatGPT、Gemini 等對話式人工智能結合,機械人與人類之間的互動將不再只限於「有聲音的回答」,而是加入能引發情感連結的微表情與口型變化,對陪伴型機械人或服務型機械人發展,具潛在影響。

相關研究論文已刊登於國際期刊《Science Robotics》,研究仍屬實驗階段,但已為「會說話、懂表情」的高度仿真人機互動,提供一個可行方向。

圖片:Creative Machines Lab

T10

科技| AI機械人紋身精準落墨 紐約試用紋身師憂爭飯碗

[星島綜合報道]如果你對能在蛋糕糖霜或咖啡泡沫上打印圖案的機器感到驚訝,這次的科技會令你更大開眼界。名為 Blackdot 的系統已經投入使用,利用人工智能與電腦視覺技術,將紋身以機械人方式直接應用到人體皮膚上。

這套系統由同名的美國德州奧斯汀初創公司研發,目前僅限於在相對平坦的身體部位,例如手臂前後及腿部,進行灰階紋身。胸口及肩膀後方等其他部位則正在開發中。

系統核心是 Blackdot 機械人,配備可升降的針頭墨水模組,能精準對準目標部位。操作員先將紋身設計導入人工智能操作系統,設定所需圖案尺寸,並轉換成公司專用的 .tattoo 檔案格式。

IMG_0030 IMG_0029

該檔案會指引機械人進行紋身,首先在皮膚表層製作一些極細的測試點(直徑 0.25 毫米,比人類頭髮還幼),並注入黑色紋身墨水。機上的相機與激光會分析這些測試點,並與資料庫中針對不同膚質與深度的測試點比較,從而計算出最佳設定。

之後,機械人便會在測試點上進行正式紋身——逐點完成。整個過程配合吸墨系統,去除多餘墨水與其他液體。據稱,該技術比人工紋身更快、更少痛感(因為穿刺較淺)且精準度更高。

系統所用設計由藝術家提供,每次作品被客戶選中,創作者便可獲取佣金。透過雲端伺服器,任何地點的 Blackdot 機器都能使用所有設計。不過,藝術家亦可設定作品的使用次數上限,以保留獨家性。

原型機自四月起已在紐約市的 Bang Bang Tattoo 使用,並在紋身界引起好壞參半的反應。公司計劃最終將機器租賃給紋身店,但現階段仍在尋求投資者。

圖片:Blackdot

T10