Kling – 文生影片大模型

Kling簡介

Kling是由快手大模型團隊自主研發的視頻生成大模型,擁有強大的視頻生成能力,能輕鬆高效地完成藝術視頻創作。

官方網站: https://klingai.com/

現在有【文生圖片】、【文生影片】兩種服務,未來還會再推出影片編輯的服務

使用範例

原圖如下

提示詞:

The character turns his face toward the viewer and stares point-blank. birds fly toward the viewer.

成果

核心特點

  • 大幅度的合理運動: 採用 3D 時空聯合注意力機制,能夠生成大幅度運動的視頻內容,同時符合運動規律。
  • 長時長高幀率視頻生成: 能夠生成長達 2 分鐘、幀率達 30fps 的高品質視頻。
  • 模擬真實物理特性: 基於自研模型架構,能夠生成符合物理規律的視頻。
  • 強大的概念組合能力: 能夠將用戶豐富的想像力轉化為具體畫面,虛構真實世界中不會出現的場景。
  • 電影級畫質: 能夠生成 1080p 分辨率的電影級視頻。
  • 支持多種寬高比: 能夠根據需求輸出多種多樣的視頻寬高比。

應用場景

可靈大模型的應用場景非常廣泛,包括但不限於:

  • 視頻內容創作: 廣告、電影、動畫、遊戲等視頻內容的生成。
  • 虛擬現實/增強現實: 虛擬世界的場景生成。
  • 教育培訓: 互動式教學內容的生成。
  • 藝術設計: 概念設計、視覺效果圖等。

Animate Anyone: 圖片+骨架動畫產生動態影片

模型介紹頁面

https://humanaigc.github.io/animate-anyone

Animate Anyone 是一個工具,可以將靜態圖片和骨架動畫結合起來,生成動態影片。它使用先進的 AI 技術,保留圖片細節並保持動畫的連貫性。這個工具適合用於人類角色、動漫和時尚視頻等的動畫製作。

模型概念

  1. 使用 Pose Guider 編碼姿勢序列並融合多幀噪音。
  2. 使用 Denoising UNet 去噪並生成視頻。
  3. Denoising UNet 包含空間、交叉和時間注意力模塊。
  4. 參考圖像的詳細特徵通過 ReferenceNet 提取,語義特徵通過 CLIP 圖像編碼器提取。
  5. 最後,VAE 解碼器將結果解碼為視頻片段。

GitHub位置

https://github.com/HumanAIGC/AnimateAnyone

不過我們可以看到現在這個Github上只有介紹而已,但是他們說因為他們正在把原始碼改得更易讀,所以仍需一些時間才能夠把開源代碼上傳上來,就讓我們持續等待吧~

Mixamo:你的3D角色動畫工廠

3D 角色動畫服務的線上平台

可以在此試用你的3D模型mixamo: https://www.mixamo.com/

Mixamo 是一個提供自動 3D 角色動畫服務的線上平台。它讓使用者能夠選擇並自定義 3D 角色,並應用各種預設的動畫。該平台支持從現有的 3D 模型中生成動畫,並提供動畫調整功能,以滿足不同的需求。Mixamo 對於遊戲開發者、動畫製作人和其他 3D 創作者非常實用,能夠顯著加快製作流程。

可以上傳自己的fbx模型檔案套用線上多樣的動作
也可以直接拿線上提供的腳色,套入Animation裡面的腳色動作

Mixamo 的主要功能

  • 龐大的動作資料庫: Mixamo 提供了數千種預製的動畫,涵蓋了各種角色、動作和風格。
  • 自動套用: 你只需上傳你的3D模型,選擇想要的動畫,Mixamo就會自動將動畫套用到你的模型上,並進行調整,使其符合模型的比例和骨架結構。
  • 客製化: 你可以對動畫進行調整,例如改變動畫的速度、調整角色的姿勢等,以達到你想要的效果。
  • 匯出多種格式: Mixamo 支援多種3D軟體常用的檔案格式,方便你將動畫匯出到你的專案中。
  • 社群功能: Mixamo 有一个活躍的社群,你可以分享你的作品、與其他使用者交流,並獲得啟發。

Mixamo 的優勢

  • 節省時間: 相較於傳統的動畫製作方式,Mixamo 可以大幅縮短動畫製作的時間。
  • 降低成本: 你不需要雇用專業的動畫師,就能製作出高品質的動畫。
  • 易於使用: 即使你不是動畫專業人士,也能輕鬆上手。
  • 靈活性: Mixamo 提供了高度的客製化功能,讓你能夠創造出獨特的動畫。

Mixamo 的應用場景

  • 遊戲開發: 為遊戲角色製作各種動作,如走路、跑步、跳躍、戰鬥等。
  • 虛擬實境/增強現實: 為虛擬角色製作動畫,使其更生動。
  • 動畫製作: 快速製作短片、動畫廣告等。
  • 電影特效: 為電影中的角色製作動作捕捉動畫。

SF3D: Stable Fast 3D Mesh 生成工具

SF3D: https://stable-fast-3d.github.io

SF3D 是一個快速生成3D網格模型的模型,它可以在不到一秒鐘的時間內從單一圖片輸出一個帶有UV展開和材質的3D模型。這個模型基於大型重建模型(LRM),專門針對網格生成進行訓練,並且包含快速UV展開技術和去光照步驟,從而提升重建模型的視覺質量,使其在新的光照條件下也能使用。

Github網站

詳情請參閱:GitHub – Stability-AI/stable-fast-3d

Stable Fast 3D模型基於 TripoSR,但進行了改進,專注於生成無瑕疵的網格和帶有UV展開的紋理。SF3D 可以快速進行推理,並且生成的3D模型可以輕鬆整合到遊戲中。安裝環境需要 Python >= 3.8 和 CUDA,並且需要安裝 PyTorch。支持手動推理和本地 Gradio 應用的運行。

要安裝 SF3D,請按照以下步驟操作:

  1. 確保環境:
    • Python 版本 >= 3.8
    • 有 CUDA
    • 安裝 PyTorch,確保 CUDA 版本匹配 PyTorch 安裝指南
    • 更新 setuptools:pip install -U setuptools==69.5.1
  2. 安裝需求:
    • 執行:pip install -r requirements.txt
    • 若要使用 Gradio demo,則執行:pip install -r requirements-demo.txt
  3. 手動推論:
    • 執行:python run.py demo_files/examples/chair1.png --output-dir output/
  4. 本地 Gradio App:
    • 執行:python gradio_app.py

線上demo

https://huggingface.co/spaces/stabilityai/stable-fast-3d

我拿這張圖做為輸入,可以很不錯的生成3D模型

AI技術於3D模型領域的應用

Meshy – 線上圖片轉3D模型fbx檔案

網站: https://www.meshy.ai/

Meshy 是您的 3D 生成式 AI 工具箱,用於輕鬆從文本或圖像創建 3D 資產,從而加速您的 3D 工作流程。使用 Meshy,您可以在幾分鐘內創建高品質的紋理和 3D 模型。

Meshy的功能

Meshy是一個創新的 3D 模型生成平台,提供以下強大的功能

文字轉紋理 (Text-to-Texture):

  • 透過簡單的文字描述,快速生成符合要求的紋理。
  • 例如:輸入「磨損的木頭紋理」,Meshy 能夠在短時間內生成逼真的木頭紋理。

圖片轉紋理 (Image-to-Texture):

  • 將概念圖或參考圖片轉換成可套用的 3D 模型紋理。
  • 這對於藝術家和設計師來說,能大幅提升工作效率。

文字轉 3D 模型 (Text-to-3D):

  • 僅需一段文字描述,就能生成完整的 3D 模型。
  • 即使沒有 3D 建模經驗,也能輕鬆創造出想要的模型。

圖片轉 3D 模型 (Image-to-3D):

  • 這對於將 2D 概念快速轉換成 3D 模型非常有用。
  • 從單張圖片中提取 3D 資訊,生成具體的 3D 模型。

探索社區資源

社區資源: https://docs.meshy.ai/web-app-interface#explore-community-resources

嘗試使用圖片產生3D模型

操作網址: https://www.meshy.ai/workspace/image-to-3d

操作非常的簡單,可直接按最右邊的下載來下載fbx檔案

Stable Diffusion常用操作介面

Easy Diffusion

下載位置: https://easydiffusion.github.io/

特色:

  • 簡易操作: 介面直觀,即使是新手也能快速上手。
  • 模型豐富: 支援多種模型,可根據需求選擇。
  • 擴充性強: 可透過外掛擴展功能。

優點:

  • 學習曲線平緩,適合初學者。
  • 功能齊全,能滿足大部分的繪圖需求。

缺點:

相較於其他工具,客製化選項可能較少。

ComfyUI

下載位置: https://github.com/comfyanonymous/ComfyUI

特色:

  • 高度客製化: 提供極高的自由度,可打造專屬的工作流程。
  • 功能強大: 除了繪圖,還能進行影像處理、動畫製作等。
  • 社群活躍: 有龐大的社群提供支援和資源。

優點:

  • 適合有經驗的使用者,可實現複雜的創作。
  • 功能多樣,能滿足專業人士的需求。

缺點:

  • 配置較為複雜。
  • 學習曲線較陡峭,需要花時間熟悉。

Stable Diffusion web UI

下載位置: https://github.com/AUTOMATIC1111/stable-diffusion-webui

特色:

  • 基於瀏覽器: 不需安裝軟體,直接在瀏覽器中使用。
  • 社群豐富: 有大量的模型和腳本可供選擇。
  • 擴充性強: 可透過擴充套件增加功能。

優點:

  • 使用門檻低,適合初學者。
  • 功能豐富,能滿足多種需求。

缺點:

相較於本地端軟體,速度可能較慢。

安裝指南

最終我選擇Stable Diffusion web UI,因為教學文章最多

AIGC 文字/圖片生成

分享內容

1. ChatGPT_Bing_Bard_Claude指南

投影片: https://www.slideshare.net/……/1chatgptbi……/265753441

課程錄影: https://www.youtube.com/watch?v=AjNXpRn3G0s

2. 透過模板指令掌握使用技巧

投影片: https://www.slideshare.net/slideshows/2pdf-116d/265753345

課程錄影: https://www.youtube.com/watch?v=k33MNZA44Tw

3. 圖像生成及應用

投影片: https://www.slideshare.net/ssuser834f031/3pdf

課程錄影: https://www.youtube.com/watch?v=tcrJpJgavMA

4. AIGC的延伸應用介紹

投影片: https://www.slideshare.net/slideshows/4aigcpdf/265924625

課程錄影: https://www.youtube.com/watch?v=2wQ6JTFu0Fs

ChatGPT / Bing / Bard / Claude指南

一、介紹人工智慧

這邊主要是在說明人工智慧演進的過程,其實人工智慧的概念第一時間是在1950年時,由圖靈所提出,定義為一個人透過鍵盤和另一個對象溝通,如果施測者無法分辨與之對話的對象是人還是機器的話, 這個機器就被認為擁有「智慧

但這個時候人工智慧的實作方式還比較以符號邏輯(類似統計學這樣以符號代表抽象的概念)為主,但很難清楚的釐清人類的思考邏輯。後來專家系統時代,人類會嘗試針對每個領域的知識去化作一條條的規則

但是,人類所能表達的,遠比人類所知道的少(博藍尼悖論),因此我們很難很完整的把我們所知道的化作規則或思考邏輯來打造人工智慧。

從2010年至今,我們進入的資料至上的時代,也就是我們開始直接丟資料給電腦,由電腦去歸納、找出電腦自己看得懂的規則,這也是為什麼ChatGPT等生成式AI的結果帶有部分的不可控、不可預測性。

了解AI的演進過程可以讓我們了解當我們要選擇AI技術時,可能可使用的選擇。雖然2010年後的機器學習技術能夠做到最廣泛的通用人工智能,但是若我們的需求範圍較為侷限,或者需要非常高的可解釋性、準確性時,仍然可以考慮符號邏輯或專家系統的方式來實做。

這些演進的歷程都是現在生成式AI能夠出現的重要基礎,每一代之間的關係不是淘汰,而是一層層的進化。

二、基礎模型帶來AI再一次的革命

在這邊我強調了在ChatGPT出現之前的AI應用,大多都用在中、大型企業內部或智能相關產品的應用。但是ChatGPT出現之後,AI從產業研發進入全民有感,並且掀起了非常大的AI風潮。

這是因為基礎模型的出現,所謂基礎模型就是類似ChatGPT這樣用途可以非常廣泛,並且可以透過詞嵌入的方式,以非常快速簡單的prompt方式,打造不同的產品。

例如下圖中的GitHub Copilot、智慧錄音卡、Notion AI、AI心理諮商,其實都是使用ChatGPT的模型,卻可以使用在多種非常不同的應用場景上(心理安慰、生活便利、程式開發等不同用途)

這樣的一個基礎模型的出現,帶來開發AI應用的革命性變革,過去,有些AI應用程式可能需要我花上六個月、甚至一年的時間來建立,現在許多團隊可能一週就能完成

以ChatGPT的自製一個聊天機器人為例,現在只需要上傳一些機器人需要知道的文件資料、並且使用對話的方式指導機器人該如何正確回應,就可以擁有一個專屬的客製對話機器人

三、生成式AI相關的應用

有興趣的可以自行去研究、了解現在AI可以做到那些事情

文本生成(LLM)

圖像生成 (text-to-image)

音樂 / 聲音生成

程式碼生成

四、多模態應用

基礎模型另一個強大之處,在於可以結合視覺、聽覺、文字的輸入,以及對不同型態輸入資料的交叉理解,能夠讓AI朝【通用型人工智慧】更加靠近

五、善用AI為生產力的新動能

特點/模型Bard(Google)ChatGPT (OpenAI)ChatGPT Plus (OpenAI)Bing (Microsoft)Claude (Anthropic)
上下文窗口長度(Token)32K4K8K8K100K
推理能力不錯最佳最佳不明不錯
網路連接功能原生支持網路搜尋無法讀取網頁需連至Bing取得網頁內容所有用戶可用的連接功能無法讀取網頁
多模態能力支持文字、圖像、語音輸入支持圖像、語音及文字輸入,以及圖像、文字、檔案輸出支持文字輸入,圖像、文字輸出支持PDF等檔案的文字讀取
建議用途圖像辨識初次接觸者皆可資訊搜尋長文PDF摘要
費用免費免費每月$20美金免費免費
主要用途研究、資料分析、聊天程式碼開發、聊天多模態及與其他服務的串接應用網路搜尋、聊天研究、分析

AI成為生產力的新動能,用戶在人工智慧輔助下完成工作的效率要高得多