介紹EchoMimic
EchoMimic 是一款開源 AI 工具,可以將人物圖片轉換為逼真的說話視頻。它採用了創新的肖像圖像動畫技術,能夠通過組合音頻信號和面部關鍵點來生成生動自然的視頻。
EchoMimic 的工作原理
- 首先,需要將人物圖片和音頻輸入到模型中。
- 模型會提取音頻中的音素和人物圖片中的面部關鍵點。
- 然後,模型會利用這些信息生成相應的面部動畫。
- 最後,將生成的的面部動畫與原來的圖片合成,得到最終的說話視頻。
例如這樣的圖片
加上這樣的音檔
可以合成這樣的影片
安裝教學
事前作業
- 先安裝CUDA和CUDNN(https://developer.nvidia.com/cuda-toolkit)
- 接著安裝可支援GPU的pytorch,要注意的是,Pytorch所支持的CUDA版本有可能無法支持最新的,我們可以在官網看現在最新支持到哪個版本的CUDA,以下圖為例,我們所安裝的CUDA版本就不可以高於CUDA12.1
接著下載EchoMimic 專案,並創建新的CONDA環境,安裝所需函式庫
git clone https://github.com/BadToBest/EchoMimic
cd EchoMimic
conda create -n echomimic python=3.8
conda activate echomimic
pip install -r requirements.txt
接著到這邊下載FFMPEG: https://www.gyan.dev/ffmpeg/builds/
此為一個範例的下載網址: https://www.gyan.dev/ffmpeg/builds/ffmpeg-git-full.7z
接著將ffmpeg的exe的路徑加入環境變數的path當中,如果能夠在CMD裡面輸入ffmpeg看到以下回覆代表安裝成功
接著下載預訓練權重
git lfs install
git clone https://huggingface.co/BadToBest/EchoMimic pretrained_weights
然後修改configs/prompts裡面的yaml檔案
接著執行 python
python -u infer_audio2vid.py
python -u infer_audio2vid_pose.py
就可以看見執行的狀態如下圖,最終產生的檔案會位於output資料夾下