StableDiffusion – Claire's Blog

AI 職場神器, AI 職場超神助手, Machine Learning, StableDiffusion AI圖像生成, Canny Edge, ControlNet, OpenPose, Stable Diffusion, 姿勢控制, 深度圖, 深度學習, 線稿生成, 語義分割

ControlNet: 放大您的圖像控制能力

Post By Claire Chang 2024-08-19 下午 3:11

想要精確控制AI生成圖像?ControlNet是Stable Diffusion用戶必學的進階技巧。本文將深入介紹ControlNet的使用方法、常見模型與實際應用案例。

ControlNet的核心功能

在AI圖像生成領域中，Stable Diffusion已經成為一個革命性的技術。然而，如何更精確地控制生成過程一直是一個挑戰。這就是ControlNet發揮作用的地方，它為Stable Diffusion帶來了前所未有的條件控制能力。

ControlNet是一個基於深度學習和神經網路的強大工具，它通過多種方式增強了Stable Diffusion的圖像處理能力：

姿勢控制：利用OpenPose模型，ControlNet能夠精確控制生成人物的姿勢。
線稿生成：通過Canny Edge檢測，可以從簡單的線稿生成複雜的圖像。
深度圖控制：使用Depth模型，ControlNet能夠理解並重現圖像的三維結構。
語義分割：Segmentation模型允許對圖像進行精細的區域控制。
Normal Map應用：這種技術能夠增強圖像的立體感和細節。

ControlNet的應用場景

ControlNet在多個領域展現出強大的應用潛力：

人物姿勢生成：精確控制人物的姿態和動作。
風格轉換：保持原始圖像結構的同時，應用新的藝術風格。
場景重建：根據簡單的輪廓或深度信息重建完整場景。
圖像編輯：對現有圖像進行精細的修改和增強。

使用技巧與優化

為了充分發揮ControlNet的潛力，以下是一些關鍵的使用技巧：

提示詞優化：精心設計的提示詞可以大大提高生成效果。
參數調整：不同的控制強度和去噪設置會產生不同的結果。
模型選擇：根據具體需求選擇最合適的ControlNet模型。
多模型組合：結合使用多個ControlNet模型可以實現更複雜的效果。

相比傳統的Stable Diffusion，ControlNet提供了更精確的控制和更多樣化的創作可能性。無論是專業設計師還是AI藝術愛好者，都能從這個強大的工具中受益。

如何使用ControlNet

ControlNet 不僅僅局限於模型控制，它還包含專為 Stable Diffusion Web UI 設計的擴展版本，使操作更加簡便。

我們在stable diffusion webui可以安裝名為 sd-webui-controlnet 的擴展套件，這是一個開源且高度可靠的工具。該工具在 GitHub 上擁有廣泛的追隨者，並且提供多樣的功能支援，使 Stable Diffusion 的操作變得更加靈活。

通過將其他條件集成到 Stable Diffusion 中來對模型施加控制。該技術提供了對生成圖像的更高精確度的控制，能夠在保留圖像關鍵特徵的同時，避免偏離初始設置。為圖像生成社群提供了一個強大的替代方案，讓使用者可以透過圖像的控制，產生更多符合需求的視覺效果，而不僅僅依賴於文字描述的提示。

ControlNet的圖像控制範例

透過這個框架，ControlNet 對圖像施加了必要的約束，避免生成圖像與原始提取的特徵（如姿勢、構圖等）有重大偏差。這使得使用者能夠基於這些特徵進行更精確的圖像生成，並在保持圖像一致性的同時實現特定的需求。

姿勢與構圖控制： 可生成具有從參考圖像派生的預定義姿勢的圖像或簡筆劃，確保生成的圖像與預期姿勢一致。

插圖樣式和紋理修改： 允許使用者更改插圖的樣式和紋理，以創造多樣化的視覺輸出，滿足不同風格的需求。

線條圖中的顏色增強： ControlNet 支援為線條圖添加顏色，增強視覺吸引力與真實感，使簡單的線條作品能夠具備更豐富的視覺層次。

安裝與使用

此工具可以從 GitHub 獲得，開發者 Mikubill 提供了詳細的安裝說明以及更新維護。

GitHub 頁面: sd-webui-controlnet

要在Stable Diffusion Web UI安裝此插件，可以到 Extension Tab ，在 Install from URL 輸入 https://github.com/Mikubill/sd-webui-controlnet.git 安裝

您可以在此處找到所有模型的下載連結：https://github.com/Mikubill/sd-webui-controlnet/wiki/Model-download

大型模型可至這邊下載: https://huggingface.co/lllyasviel/ControlNet-v1-1/tree/main

然後把模型放在stable-diffusion-webui-master\models\ControlNet資料夾下面

這邊有模型分類的介紹: https://ai-summoner.tw/7612/what-is-controlnet1-1/

設定參數介紹

控制模式包括平衡模式、已提示詞為主、以ControlNet為主

預處理(Preprocessor)參數的作用主要是幫助用戶在生成圖像時，根據不同的需求和參考圖像進行調整和引導。這部分你選擇的要有相對應的模型(請參考上面的模型下載部分)，才會能夠生效，關於每一個模型或者預處理的方式介紹請參考上方AI召喚師的文章。

Instruct Pix2Pix (ip2p) 模型 (control_vlle_sd15_ip2p.pth)：此模型專注於指令式變換，能夠根據用戶提供的提示詞進行圖像的轉換和變形。例如，使用者可以輸入指令將某種場景轉變為另一種場景，這使得生成的圖像更加符合用戶的具體需求。
Shuffle 模型 (control_vlle_sd15.shuffle.pth)：Shuffle 模型則更注重於風格轉換，能夠將輸入圖像轉換為具有特定風格的圖像，如卡通風格或水彩風格。這個模型強調細節和紋理的處理，適合用於創造具有藝術感的圖像。
Tile 模型（control_v11f1e_sd15_tile.pth）：主要用於圖像的放大和細節增強。它能夠在有限的像素基礎上對圖像進行分塊擴散處理，生成與原圖相似且極為清晰的圖片，特別適合於對單一圖片進行精修和美化。
Depth 模型（control_v11f1p_sd15_depth.pth）：此模型專注於景深分析，能夠在生成圖片時保持與原圖相同的景深效果，常用於固定人物外型和背景的穩定性。
Canny 模型（control_v11p_sd15_canny.pth）：主要用於邊緣檢測，能夠精確地識別圖像中的邊緣，適合於需要清晰邊界的圖像生成任務。
Inpaint 模型（control_v11p_sd15_inpaint.pth）：此模型用於重繪和修圖，可以針對特定範圍進行修補，與內建的 inpaint 功能相似，但在使用上更加方便且效果更佳。
Lineart 模型（control_v11p_sd15_lineart.pth）：專門用於處理線條藝術，能夠將圖像轉換為清晰的線條圖，適合於插畫和漫畫風格的生成。
MLSD 模型（control_v11p_sd15_mlsd.pth）：是一個專門用來描繪建築物的模型。此模型用於多邊形線檢測，能夠識別圖像中的多邊形結構，適合於需要精確形狀識別的任務。
Normal 模型（control_v11p_sd15_normalbae.pth）：利用法線圖來分析和控制生成圖像的紋理，這有助於在生成過程中保持真實感和細節。
Openpose 模型（control_v11p_sd15_openpose.pth）：專注於人體姿勢識別，能夠根據提供的人體骨架信息生成相應的圖像，適合於需要精確人體動作的場景。
Scribble 模型（control_v11p_sd15_scribble.pth）：此模型支持草圖轉換，能夠根據簡單的草圖生成詳細的圖像，適合於草圖創作和概念設計。
Segmentation 模型（control_v11p_sd15_seg.pth）：用於圖像分割，能夠將圖像中的不同部分進行分離和標記，適合於需要區分不同區域的圖像生成任務。
SoftEdge 模型 (control_v11p_sd15_softedge.pth)：專注於將圖像轉換為柔和的邊緣風格,相較於其他模型更注重圖像的柔和度和自然度,通常用於生成風景、人物等柔和風格的圖片。它是 ControlNet 1.0 版本中 HED 模型的升級版,有四種預處理器可供選擇,按照結果品質排序分別是 SoftEdge_HED、SoftEdge_PIDI、SoftEdge_HED_safe、SoftEdge_PIDI_safe。相對於傳統的邊緣模型(如 Canny),SoftEdge 模型更注重保留圖像的細節,提取的線條更精細,細節更豐富。
Lineart Anime 模型 (control_v11p_sd15s2_lineart_anime.pth)：此模型專門用於生成動漫風格的線稿圖像,能夠將圖像轉換為清晰的線條圖,適合於插畫和漫畫風格的生成。它是 ControlNet 1.1 版本中新增的模型,在 ControlNet 1.0 的 Lineart 模型基礎上進行了優化和改進,使生成的線稿更加符合動漫風格。

AI 職場神器, AI 職場超神助手, Machine Learning, StableDiffusion

無法載入ControlNet

錯誤訊息如下:

*** Error loading script: face_manipulation_extras.py
Traceback (most recent call last):
File “C:\Users\clairechang\stable-diffusion-webui-master\modules\scripts.py”, line 515, in load_scripts
script_module = script_loading.load_module(scriptfile.path)
File “C:\Users\clairechang\stable-diffusion-webui-master\modules\script_loading.py”, line 13, in load_module
module_spec.loader.exec_module(module)
File “”, line 883, in exec_module
File “”, line 241, in call_with_frames_removed File “C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-face-manipulation-extras\scripts\face_manipulation_extras.py”, line 4, in from face_manipulation.main import process, alignImage File “C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-face-manipulation-extras\face_manipulation\main.py”, line 6, in from face_manipulation.zerodim.network.training import Model File “C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-face-manipulation-extras\face_manipulation\zerodim\network\training.py”, line 18, in from face_manipulation.zerodim.network.modules import BetaVAEGenerator, BetaVAEEncoder File “C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-face-manipulation-extras\face_manipulation\zerodim\network\modules.py”, line 10, in from face_manipulation.zerodim.stylegan2_pytorch.model import ConstantInput, ToRGB, ModulatedConv2d, FusedLeakyReLU File “C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-face-manipulation-extras\face_manipulation\zerodim\stylegan2_pytorch\model.py”, line 11, in from face_manipulation.zerodim.stylegan2_pytorch.op import FusedLeakyReLU, fused_leaky_relu, upfirdn2d, conv2d_gradfix File “C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-face-manipulation-extras\face_manipulation\zerodim\stylegan2_pytorch\op__init_.py”, line 1, in
from .fused_act import FusedLeakyReLU, fused_leaky_relu
File “C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-face-manipulation-extras\face_manipulation\zerodim\stylegan2_pytorch\op\fused_act.py”, line 19, in
fused = load(
File “C:\Users\clairechang\AppData\Local\Programs\Python\Python310\myenv\lib\site-packages\torch\utils\cpp_extension.py”, line 1308, in load
return _jit_compile(
File “C:\Users\clairechang\AppData\Local\Programs\Python\Python310\myenv\lib\site-packages\torch\utils\cpp_extension.py”, line 1710, in _jit_compile
_write_ninja_file_and_build_library(
File “C:\Users\clairechang\AppData\Local\Programs\Python\Python310\myenv\lib\site-packages\torch\utils\cpp_extension.py”, line 1823, in _write_ninja_file_and_build_library
_run_ninja_build(
File “C:\Users\clairechang\AppData\Local\Programs\Python\Python310\myenv\lib\site-packages\torch\utils\cpp_extension.py”, line 2077, in _run_ninja_build
vc_env = distutils._msvccompiler._get_vc_env(plat_spec)
File “C:\Users\clairechang\AppData\Local\Programs\Python\Python310\myenv\lib\site-packages\setuptools\msvc.py”, line 230, in msvc14_get_vc_env
return _msvc14_get_vc_env(plat_spec)
File “C:\Users\clairechang\AppData\Local\Programs\Python\Python310\myenv\lib\site-packages\setuptools\msvc.py”, line 187, in _msvc14_get_vc_env
raise distutils.errors.DistutilsPlatformError(“Unable to find vcvarsall.bat”)
distutils.errors.DistutilsPlatformError: Microsoft Visual C++ 14.0 or greater is required. Get it with “Microsoft C++ Build Tools”: https://visualstudio.microsoft.com/visual-cpp-build-tools/

這個錯誤訊息顯示在運行 face_manipulation_extras.py 腳本時，遇到了一個與編譯 C++ 擴展模組相關的問題，具體來說是缺少 Microsoft Visual C++ 編譯工具。解決這個問題的方法如下：

安裝 Microsoft C++ Build Tools：前往 Microsoft Visual C++ Build Tools 的官方網站，下載並安裝最新版本的 C++ 編譯工具。這是你系統編譯某些擴展模組所必需的。
設定 Visual Studio 的環境變數：安裝完成後，必須確保 vcvarsall.bat 已正確配置到你的系統環境變數中，通常這是自動處理的。你可以嘗試重新啟動你的終端機或電腦來使變更生效。

模型版本不相容

錯誤訊息如下:

*** Error running process: C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-controlnet\scripts\controlnet.py
Traceback (most recent call last):
File “C:\Users\clairechang\stable-diffusion-webui-master\modules\scripts.py”, line 832, in process
script.process(p, *script_args)
File “C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-controlnet\scripts\controlnet.py”, line 1228, in process
self.controlnet_hack(p)
File “C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-controlnet\scripts\controlnet.py”, line 1213, in controlnet_hack
self.controlnet_main_entry(p)
File “C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-controlnet\scripts\controlnet.py”, line 898, in controlnet_main_entry
Script.check_sd_version_compatible(unit)
File “C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-controlnet\scripts\controlnet.py”, line 827, in check_sd_version_compatible
raise Exception(f”ControlNet model {unit.model}({cnet_sd_version}) is not compatible with sd model({sd_version})”)
Exception: ControlNet model control_v11p_sd15_inpaint ebff9138 is not compatible with sd model(StableDiffusionVersion.SDXL)

所選擇的模型與ControlNet的模型不相容。可以確認一下所選擇的 Stable Diffusion 1.x 版本的模型（例如 v1-5-pruned.ckpt 或類似名稱的模型）和ControlNet的版本是否有對應。

關於版本，我們可以根據CivitAI網站去找到適合你的版本的模型

然後關於ControlNet的模型，

SD2.X可在此下載: https://huggingface.co/thibaud/controlnet-sd21/tree/main

SD1.X可在此下載: https://huggingface.co/comfyanonymous/ControlNet-v1-1_fp16_safetensors/tree/main

將下載的 .ckpt 模型文件放入 Stable Diffusion WebUI 的 models/Stable-diffusion 資料夾中。通常你按了Control Type的按鈕之後，Model應該要自動跳到相對應的模型，如果按了Control Type後Model還是空的，很大的可能你所抓的模型的版本不一致，所以web-ui才會抓不到。

尺寸不一樣的錯誤

*** Error running process: C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-controlnet\scripts\controlnet.py
Traceback (most recent call last):
File “C:\Users\clairechang\stable-diffusion-webui-master\modules\scripts.py”, line 832, in process
script.process(p, *script_args)
File “C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-controlnet\scripts\controlnet.py”, line 1228, in process
self.controlnet_hack(p)
File “C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-controlnet\scripts\controlnet.py”, line 1213, in controlnet_hack
self.controlnet_main_entry(p)
File “C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-controlnet\scripts\controlnet.py”, line 919, in controlnet_main_entry
model_net, control_model_type = Script.load_control_model(p, unet, unit.model)
File “C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-controlnet\scripts\controlnet.py”, line 436, in load_control_model
control_model = Script.build_control_model(p, unet, model)
File “C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-controlnet\scripts\controlnet.py”, line 465, in build_control_model
control_model = build_model_by_guess(state_dict, unet, model_path)
File “C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-controlnet\scripts\controlnet_model_guess.py”, line 218, in build_model_by_guess
p_new = p + unet_state_dict[key].clone().cpu()
RuntimeError: The size of tensor a (1024) must match the size of tensor b (768) at non-singleton dimension 1

此錯誤可能是由於所使用的 ControlNet 模型與你正在運行的 Stable Diffusion 模型之間的尺寸不匹配。Stable Diffusion 1.x 模型的特徵圖通常是 768×768，而 SDXL（Stable Diffusion 2.x）模型的特徵圖大小通常是 1024×1024。因此，如果你在 SDXL 模型中使用了為 Stable Diffusion 1.x 設計的 ControlNet 模型，會導致張量尺寸不匹配。

AI 職場神器, AI 職場超神助手, Machine Learning, StableDiffusion ADetailer, AI圖像修復, Stable Diffusion, YOLO模型, 人臉優化, 手部修正

ADetailer: 自動人臉檢測和高品質修復

Post By Claire Chang 2024-08-12 下午 3:33

在AI繪圖領域中，Stable Diffusion已成為一個強大的工具，但它在生成人臉和手部細節時常常會出現畸形問題。為了解決這個困擾，ADetailer這個Stable Diffusion插件應運而生，它專門針對AI圖像修復，特別是在人臉優化和手部修正方面表現出色。

ADetailer的核心功能

ADetailer是一款功能強大的AI圖像修復工具，它的主要特點包括：

自動人臉檢測：利用先進的YOLO模型，ADetailer能夠精確定位圖像中的人臉。
局部重繪：通過生成精確的遮罩，ADetailer可以只對需要修復的區域進行重繪，保留原圖其他部分的完整性。
高解析度修復：對於低解析度圖像，ADetailer能夠進行優化，提升圖像質量。
多模型支援：除了YOLO模型，ADetailer還支援MediaPipe模型，為用戶提供更多選擇。
一鍵修復：簡化了複雜的修復流程，使用者只需點擊幾下就能完成高質量的圖像修復。

使用ADetailer的優勢

相比手動修復，ADetailer在效率和效果上都有顯著優勢。它不僅能夠快速處理全身圖像生成中的細節問題，還可以輕鬆實現表情調整和年齡變化等高級效果。

ADetailer的功能

使用檢測模型自動識別人臉和手部。
面部和手部的識別部分使用穩定擴散進行裁剪和校正。
將校正後的面部和手部圖像小心地重新置放到其原始位置。

Adetailer 不僅可以用於修復扭曲的臉部。以下是一些其他用途：

改變面部表情
更改一個人的年齡
改變外觀以類似於不同的種族或氛圍
僅將LoRA增強功能應用於面部

Stable Diffusion 專注於面部和手部的再生，從而改善了結果。在再生過程中，裁剪區域具有更高的解析度，可以詳細呈現眼睛和鼻子等各個特徵，最終產生精美的面部描繪。

ADetailer 在三個關鍵方面超越了其他技術，使其成為面部矯正的首選：

便利性：啟動「啟用 ADetailer」選項可啟動自動面部矯正，確保使用者友好且無憂的體驗。
記憶體消耗和生成時間優化：與涉及放大原始圖像的許多其他方法不同，這些方法會導致更大的檔大小和更長的處理時間，ADetailer 只關注面部圖像。這種方法可以在不影響圖像解析度的情況下進行有效的校正。
將 LoRA 應用於面部的靈活性： ADetailer 允許在矯正過程中進行微小調整，為使用者提供更大的靈活性和便利性

安裝 ADetailer

以下為GitHib的位置: https://github.com/Bing-su/adetailer

這邊是使用Stable Diffusion Web-ui的ADetailer安裝教學：

切換到“擴展插件/Extensions”頁面，選擇”從網址安裝”.
輸入: https://github.com/Bing-su/adetailer.git，按下安裝

按下Apply and restart UI按鈕

此時我們進入擴展插件>已安裝，應該要可以看到adetailer

接著確認是否在首頁有出現adetailer的設定欄位

ADetailer 的模型列表

ADetailer 提供用於檢測人臉、手和身體的模型。可根據想要生成的圖像或您想要校正的特定部分（例如，面部、手部、身體）選擇適當的模型。

Model	Target 目標
face_yolov8n.pt	臉部（插圖/真實）
face_yolov8s.pt	臉部（插圖/真實）
hand_yolov8n.pt	手（插圖/真實）
person_yolov8n-seg.pt	人物（插圖/真實）
person_yolov8n-seg.pt	全身（插圖/真實）
person_yolov8s-seg.pt	全身（插圖/真實）
person_yolov8s-seg.pt	全身（插圖/真實）
mediapipe_face_full	人臉（真實）
mediapipe_face_short	人臉（真實）
mediapipe_face_mesh	人臉（真實）

在 ADetailer 選單中輸入提示

以下為一個範例

Prompt: (8k, RAW photo, best quality, masterpiece:1.2), (realistic, photo-realistic:1.4), (extremely detailed 8k wallpaper), cheerleader outfit, 20-year-old woman, detailed face

Negative Prompt: EasyNegative, deformed face, ugly, bad face, deformed eyes

左邊的圖片沒有使用 ADetailer，右邊的圖片應用了 ADetailer。可以觀察到 ADetailer 可以糾正面部的任何扭曲。

用ADetailer改變表情

切換到「圖像信息(PNG Info)」選項
選擇要修改的圖片
輸入提示詞

若想檢查是否為五根手指，則可使用以下設定

提示的關鍵字：

five fingers

否定提示的關鍵詞：

deformed hand
extra_fingers
bad fingers
missing fingers
fewer digits, extra digit
liquid fingers

AI 職場神器, AI 職場超神助手, Machine Learning, StableDiffusion

Stable Diffusion主要功能和應用

Post By Claire Chang 2024-08-06 下午 7:38

官方網站

https://stability.ai

可看見現在這個平台所提供的相關工具包括: 圖像生成、影像生成、音樂生成、3D模型生成、文字生成

開源社群

https://civitai.com

可下載許多人自己生成的模型和相關微調模型，還有許多澀澀的(?)圖片

主要功能 – 圖像生成

根據文本生成圖像

描述生成：用戶可以輸入一段文字描述，Stable Diffusion 模型會根據這段描述生成對應的圖像。例如，輸入“日落下的山脈”，模型會生成一幅描繪日落下山脈的圖像。

創意生成

藝術創作：藝術家可以使用 Stable Diffusion 生成具有特定風格或主題的圖像，從而激發創意和靈感。
概念設計：設計師可以快速生成概念草圖，用於產品設計或廣告創意。

圖像生成使用模型為: SD1.x, SD2.x, SDXL

SDXL 是目前 Stable Diffusion 系列中最新的模型之一。它在 SD2.x 的基礎上進一步提升了圖像的品質和細節，尤其是在處理複雜的場景和人物時表現更加出色。SDXL 還能夠生成更加多樣化的圖像風格，為用戶提供了更多的創作可能性。

主要功能 – 圖像修改和增強

圖像修復

缺損修復：模型可以自動填補和修復圖像中缺失或損壞的部分，恢復圖像的完整性。
品質增強：提高低解析度圖像的質量，使其更加清晰和細緻。

圖像編輯

局部修改：用戶可以指定圖像的某個區域進行修改，例如改變圖像中的顏色、形狀或添加新的元素。
風格轉換：將圖像轉換為不同的藝術風格，如將照片變為素描或油畫效果。

技術介紹

要使用Stable Diffusion來做到圖像修復或者是圖像編輯，需要安裝相關ADetailer的外掛，以下為一個範例

https://blog.csdn.net/2401_84250575/article/details/138863838

以Web ui為例，可以安裝ADetailer的擴展套件，就可以讀取相關的模型來修復圖片

主要功能 – 多模態應用

圖像-文本匹配

圖像標註：根據圖像生成相應的文本描述，適用於自動標註和圖像檢索。
文本生成圖像：根據文本描述生成圖像，用於多模態數據集的構建和應用。

文本-圖像交互

文本驅動的圖像編輯：用戶可以通過文本指令對圖像進行特定修改，例如“將天空變成藍色”或“在圖像中添加一棵樹”。

主要功能 – 創意應用

動畫生成

動畫創作：通過生成連續的圖像幀來創建動畫效果，適用於動畫製作和電影特效。
介紹網頁: https://stability.ai/news/stable-video-diffusion-open-ai-video-model
GitHub位置: https://github.com/Stability-AI/generative-models
一秒25偵模型下載: https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt/blob/main/svd_xt.safetensors
- 一秒14偵模型下載: https://huggingface.co/stabilityai/stable-video-diffusion-img2vid/blob/main/svd.safetensors

遊戲開發

遊戲場景生成：根據描述生成遊戲場景，幫助遊戲開發者快速創建豐富的遊戲內容。
Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model: https://opengvlab.github.io/Diffree/
SceneTex: High-Quality Texture Synthesis for Indoor Scenes via Diffusion Priors: https://daveredrum.github.io/SceneTex/

主要功能 – 科學研究

醫學圖像分析

醫學影像生成：根據描述生成醫學影像，輔助醫學研究和診斷。
圖像合成：生成合成的醫學圖像，用於訓練和測試醫學影像分析模型。

自然科學模擬

氣象模擬：生成氣象圖像，用於天氣預測和氣候研究。
地理模擬：根據描述生成地理景觀圖像，幫助地理研究和模擬。

AI 職場神器, AI 職場超神助手, Machine Learning, StableDiffusion AI影片生成, Kling, 人工智能, 大型語言模型, 影片製作, 文本轉影片, 文生影片

Kling – 文生影片大模型

Post By Claire Chang 2024-08-06 下午 7:08

Kling簡介

Kling是由快手大模型團隊自主研發的視頻生成大模型，擁有強大的視頻生成能力，能輕鬆高效地完成藝術視頻創作。

官方網站: https://klingai.com/

現在有【文生圖片】、【文生影片】兩種服務，未來還會再推出影片編輯的服務

使用範例

原圖如下

提示詞:

The character turns his face toward the viewer and stares point-blank. birds fly toward the viewer.

成果

核心特點

大幅度的合理運動： 採用 3D 時空聯合注意力機制，能夠生成大幅度運動的視頻內容，同時符合運動規律。
長時長高幀率視頻生成： 能夠生成長達 2 分鐘、幀率達 30fps 的高品質視頻。
模擬真實物理特性： 基於自研模型架構，能夠生成符合物理規律的視頻。
強大的概念組合能力： 能夠將用戶豐富的想像力轉化為具體畫面，虛構真實世界中不會出現的場景。
電影級畫質： 能夠生成 1080p 分辨率的電影級視頻。
支持多種寬高比： 能夠根據需求輸出多種多樣的視頻寬高比。

應用場景

可靈大模型的應用場景非常廣泛，包括但不限於：

視頻內容創作： 廣告、電影、動畫、遊戲等視頻內容的生成。
虛擬現實/增強現實： 虛擬世界的場景生成。
教育培訓： 互動式教學內容的生成。
藝術設計： 概念設計、視覺效果圖等。

AI 職場神器, AI 職場超神助手, Machine Learning, StableDiffusion

Animate Anyone: 圖片+骨架動畫產生動態影片

Post By Claire Chang 2024-08-06 下午 6:38

模型介紹頁面

https://humanaigc.github.io/animate-anyone

Animate Anyone 是一個工具，可以將靜態圖片和骨架動畫結合起來，生成動態影片。它使用先進的 AI 技術，保留圖片細節並保持動畫的連貫性。這個工具適合用於人類角色、動漫和時尚視頻等的動畫製作。

模型概念

使用 Pose Guider 編碼姿勢序列並融合多幀噪音。
使用 Denoising UNet 去噪並生成視頻。
Denoising UNet 包含空間、交叉和時間注意力模塊。
參考圖像的詳細特徵通過 ReferenceNet 提取，語義特徵通過 CLIP 圖像編碼器提取。
最後，VAE 解碼器將結果解碼為視頻片段。

GitHub位置

https://github.com/HumanAIGC/AnimateAnyone

不過我們可以看到現在這個Github上只有介紹而已，但是他們說因為他們正在把原始碼改得更易讀，所以仍需一些時間才能夠把開源代碼上傳上來，就讓我們持續等待吧~

AI 職場神器, AI 職場超神助手, Machine Learning, StableDiffusion

Mixamo：你的3D角色動畫工廠

Post By Claire Chang 2024-08-06 下午 6:29

3D 角色動畫服務的線上平台

可以在此試用你的3D模型mixamo: https://www.mixamo.com/

Mixamo 是一個提供自動 3D 角色動畫服務的線上平台。它讓使用者能夠選擇並自定義 3D 角色，並應用各種預設的動畫。該平台支持從現有的 3D 模型中生成動畫，並提供動畫調整功能，以滿足不同的需求。Mixamo 對於遊戲開發者、動畫製作人和其他 3D 創作者非常實用，能夠顯著加快製作流程。

Mixamo 的主要功能

龐大的動作資料庫： Mixamo 提供了數千種預製的動畫，涵蓋了各種角色、動作和風格。
自動套用： 你只需上傳你的3D模型，選擇想要的動畫，Mixamo就會自動將動畫套用到你的模型上，並進行調整，使其符合模型的比例和骨架結構。
客製化： 你可以對動畫進行調整，例如改變動畫的速度、調整角色的姿勢等，以達到你想要的效果。
匯出多種格式： Mixamo 支援多種3D軟體常用的檔案格式，方便你將動畫匯出到你的專案中。
社群功能： Mixamo 有一个活躍的社群，你可以分享你的作品、與其他使用者交流，並獲得啟發。

Mixamo 的優勢

節省時間： 相較於傳統的動畫製作方式，Mixamo 可以大幅縮短動畫製作的時間。
降低成本： 你不需要雇用專業的動畫師，就能製作出高品質的動畫。
易於使用： 即使你不是動畫專業人士，也能輕鬆上手。
靈活性： Mixamo 提供了高度的客製化功能，讓你能夠創造出獨特的動畫。

Mixamo 的應用場景

遊戲開發： 為遊戲角色製作各種動作，如走路、跑步、跳躍、戰鬥等。
虛擬實境/增強現實： 為虛擬角色製作動畫，使其更生動。
動畫製作： 快速製作短片、動畫廣告等。
電影特效： 為電影中的角色製作動作捕捉動畫。

AI 職場神器, AI 職場超神助手, Machine Learning, StableDiffusion

SF3D: Stable Fast 3D Mesh 生成工具

Post By Claire Chang 2024-08-06 下午 6:21

SF3D: https://stable-fast-3d.github.io

SF3D 是一個快速生成3D網格模型的模型，它可以在不到一秒鐘的時間內從單一圖片輸出一個帶有UV展開和材質的3D模型。這個模型基於大型重建模型（LRM），專門針對網格生成進行訓練，並且包含快速UV展開技術和去光照步驟，從而提升重建模型的視覺質量，使其在新的光照條件下也能使用。

Github網站

詳情請參閱：GitHub – Stability-AI/stable-fast-3d

Stable Fast 3D模型基於 TripoSR，但進行了改進，專注於生成無瑕疵的網格和帶有UV展開的紋理。SF3D 可以快速進行推理，並且生成的3D模型可以輕鬆整合到遊戲中。安裝環境需要 Python >= 3.8 和 CUDA，並且需要安裝 PyTorch。支持手動推理和本地 Gradio 應用的運行。

要安裝 SF3D，請按照以下步驟操作：

確保環境：
- Python 版本 >= 3.8
- 有 CUDA
- 安裝 PyTorch，確保 CUDA 版本匹配 PyTorch 安裝指南
- 更新 setuptools：pip install -U setuptools==69.5.1
安裝需求：
- 執行：pip install -r requirements.txt
- 若要使用 Gradio demo，則執行：pip install -r requirements-demo.txt
手動推論：
- 執行：python run.py demo_files/examples/chair1.png --output-dir output/
本地 Gradio App：
- 執行：python gradio_app.py