Posted on

EchoMimic – 人物圖片轉影片的開源模型

介紹EchoMimic

EchoMimic 是一款開源 AI 工具,可以將人物圖片轉換為逼真的說話視頻。它採用了創新的肖像圖像動畫技術,能夠通過組合音頻信號和面部關鍵點來生成生動自然的視頻。

EchoMimic 的工作原理

  1. 首先,需要將人物圖片和音頻輸入到模型中。
  2. 模型會提取音頻中的音素和人物圖片中的面部關鍵點。
  3. 然後,模型會利用這些信息生成相應的面部動畫。
  4. 最後,將生成的的面部動畫與原來的圖片合成,得到最終的說話視頻。

例如這樣的圖片

加上這樣的音檔

可以合成這樣的影片

安裝教學

事前作業

  1. 先安裝CUDA和CUDNN(https://developer.nvidia.com/cuda-toolkit)
  2. 接著安裝可支援GPU的pytorch,要注意的是,Pytorch所支持的CUDA版本有可能無法支持最新的,我們可以在官網看現在最新支持到哪個版本的CUDA,以下圖為例,我們所安裝的CUDA版本就不可以高於CUDA12.1

接著下載EchoMimic 專案,並創建新的CONDA環境,安裝所需函式庫

git clone https://github.com/BadToBest/EchoMimic
cd EchoMimic
conda create -n echomimic python=3.8
conda activate echomimic
pip install -r requirements.txt

接著到這邊下載FFMPEG: https://www.gyan.dev/ffmpeg/builds/

此為一個範例的下載網址: https://www.gyan.dev/ffmpeg/builds/ffmpeg-git-full.7z

接著將ffmpeg的exe的路徑加入環境變數的path當中,如果能夠在CMD裡面輸入ffmpeg看到以下回覆代表安裝成功

接著下載預訓練權重

git lfs install
git clone https://huggingface.co/BadToBest/EchoMimic pretrained_weights

然後修改configs/prompts裡面的yaml檔案

接著執行 python 

python -u infer_audio2vid.py
python -u infer_audio2vid_pose.py

就可以看見執行的狀態如下圖,最終產生的檔案會位於output資料夾下