近期,阿里巴巴智能計算研究所提出了一種新的生成式框架 EMO,是一種富有表現(xiàn)力的音頻驅(qū)動的肖像視頻生成框架,用戶只需提供一張照片和一段音頻文件,EMO就能生成會說話唱歌的AI視頻,實現(xiàn)無縫對接的動態(tài)小視頻,最長時間可達(dá)1分30秒左右。這項技術(shù)的應(yīng)用場景非常廣泛,從電視劇角色的語音合成到音樂視頻中的虛擬表演者,都有可能被AI技術(shù)所取代。
EMO框架使用Audio2Video擴(kuò)散模型,通過三個階段的技術(shù)處理,包括幀編碼、音頻編碼和去噪操作,以及參考注意力和音頻注意力機(jī)制,來生成富有表現(xiàn)力的人像視頻。
目前,EMO 框架上線到 GitHub 中,相關(guān)論文也在 arxiv 上公開。
GitHub:https://github.com/HumanAIGC/EMO
論文:https://arxiv.org/abs/2402.17485