EchoMimic – 人物圖片轉影片的開源模型

介紹EchoMimic

EchoMimic 是一款開源 AI 工具，可以將人物圖片轉換為逼真的說話視頻。它採用了創新的肖像圖像動畫技術，能夠通過組合音頻信號和面部關鍵點來生成生動自然的視頻。

EchoMimic 的工作原理

首先，需要將人物圖片和音頻輸入到模型中。
模型會提取音頻中的音素和人物圖片中的面部關鍵點。
然後，模型會利用這些信息生成相應的面部動畫。
最後，將生成的的面部動畫與原來的圖片合成，得到最終的說話視頻。

例如這樣的圖片

加上這樣的音檔

echomimic_en 下載

可以合成這樣的影片

安裝教學

事前作業

先安裝CUDA和CUDNN(https://developer.nvidia.com/cuda-toolkit)
接著安裝可支援GPU的pytorch，要注意的是，Pytorch所支持的CUDA版本有可能無法支持最新的，我們可以在官網看現在最新支持到哪個版本的CUDA，以下圖為例，我們所安裝的CUDA版本就不可以高於CUDA12.1

接著下載EchoMimic 專案，並創建新的CONDA環境，安裝所需函式庫

git clone https://github.com/BadToBest/EchoMimic
cd EchoMimic
conda create -n echomimic python=3.8
conda activate echomimic
pip install -r requirements.txt

接著到這邊下載FFMPEG: https://www.gyan.dev/ffmpeg/builds/

此為一個範例的下載網址: https://www.gyan.dev/ffmpeg/builds/ffmpeg-git-full.7z

接著將ffmpeg的exe的路徑加入環境變數的path當中，如果能夠在CMD裡面輸入ffmpeg看到以下回覆代表安裝成功

接著下載預訓練權重

git lfs install
git clone https://huggingface.co/BadToBest/EchoMimic pretrained_weights

然後修改configs/prompts裡面的yaml檔案

接著執行 python

python -u infer_audio2vid.py
python -u infer_audio2vid_pose.py

就可以看見執行的狀態，最終產生的檔案會位於output資料夾下