AI 職場神器 – 第 2 頁

AI 職場神器, AI 職場超神助手, Machine Learning, StableDiffusion AI影片生成, Kling, 人工智能, 大型語言模型, 影片製作, 文本轉影片, 文生影片

Kling – 文生影片大模型

Post By Claire Chang 2024-08-06 下午 7:08

Kling簡介

Kling是由快手大模型團隊自主研發的視頻生成大模型，擁有強大的視頻生成能力，能輕鬆高效地完成藝術視頻創作。

官方網站: https://klingai.com/

現在有【文生圖片】、【文生影片】兩種服務，未來還會再推出影片編輯的服務

使用範例

原圖如下

提示詞:

The character turns his face toward the viewer and stares point-blank. birds fly toward the viewer.

成果

核心特點

大幅度的合理運動： 採用 3D 時空聯合注意力機制，能夠生成大幅度運動的視頻內容，同時符合運動規律。
長時長高幀率視頻生成： 能夠生成長達 2 分鐘、幀率達 30fps 的高品質視頻。
模擬真實物理特性： 基於自研模型架構，能夠生成符合物理規律的視頻。
強大的概念組合能力： 能夠將用戶豐富的想像力轉化為具體畫面，虛構真實世界中不會出現的場景。
電影級畫質： 能夠生成 1080p 分辨率的電影級視頻。
支持多種寬高比： 能夠根據需求輸出多種多樣的視頻寬高比。

應用場景

可靈大模型的應用場景非常廣泛，包括但不限於：

視頻內容創作： 廣告、電影、動畫、遊戲等視頻內容的生成。
虛擬現實/增強現實： 虛擬世界的場景生成。
教育培訓： 互動式教學內容的生成。
藝術設計： 概念設計、視覺效果圖等。

AI 職場神器, AI 職場超神助手, Machine Learning, StableDiffusion

Animate Anyone: 圖片+骨架動畫產生動態影片

Post By Claire Chang 2024-08-06 下午 6:38

模型介紹頁面

https://humanaigc.github.io/animate-anyone

Animate Anyone 是一個工具，可以將靜態圖片和骨架動畫結合起來，生成動態影片。它使用先進的 AI 技術，保留圖片細節並保持動畫的連貫性。這個工具適合用於人類角色、動漫和時尚視頻等的動畫製作。

模型概念

使用 Pose Guider 編碼姿勢序列並融合多幀噪音。
使用 Denoising UNet 去噪並生成視頻。
Denoising UNet 包含空間、交叉和時間注意力模塊。
參考圖像的詳細特徵通過 ReferenceNet 提取，語義特徵通過 CLIP 圖像編碼器提取。
最後，VAE 解碼器將結果解碼為視頻片段。

GitHub位置

https://github.com/HumanAIGC/AnimateAnyone

不過我們可以看到現在這個Github上只有介紹而已，但是他們說因為他們正在把原始碼改得更易讀，所以仍需一些時間才能夠把開源代碼上傳上來，就讓我們持續等待吧~

AI 職場神器, AI 職場超神助手, Machine Learning, StableDiffusion

Mixamo：你的3D角色動畫工廠

Post By Claire Chang 2024-08-06 下午 6:29

3D 角色動畫服務的線上平台

可以在此試用你的3D模型mixamo: https://www.mixamo.com/

Mixamo 是一個提供自動 3D 角色動畫服務的線上平台。它讓使用者能夠選擇並自定義 3D 角色，並應用各種預設的動畫。該平台支持從現有的 3D 模型中生成動畫，並提供動畫調整功能，以滿足不同的需求。Mixamo 對於遊戲開發者、動畫製作人和其他 3D 創作者非常實用，能夠顯著加快製作流程。

Mixamo 的主要功能

龐大的動作資料庫： Mixamo 提供了數千種預製的動畫，涵蓋了各種角色、動作和風格。
自動套用： 你只需上傳你的3D模型，選擇想要的動畫，Mixamo就會自動將動畫套用到你的模型上，並進行調整，使其符合模型的比例和骨架結構。
客製化： 你可以對動畫進行調整，例如改變動畫的速度、調整角色的姿勢等，以達到你想要的效果。
匯出多種格式： Mixamo 支援多種3D軟體常用的檔案格式，方便你將動畫匯出到你的專案中。
社群功能： Mixamo 有一个活躍的社群，你可以分享你的作品、與其他使用者交流，並獲得啟發。

Mixamo 的優勢

節省時間： 相較於傳統的動畫製作方式，Mixamo 可以大幅縮短動畫製作的時間。
降低成本： 你不需要雇用專業的動畫師，就能製作出高品質的動畫。
易於使用： 即使你不是動畫專業人士，也能輕鬆上手。
靈活性： Mixamo 提供了高度的客製化功能，讓你能夠創造出獨特的動畫。

Mixamo 的應用場景

遊戲開發： 為遊戲角色製作各種動作，如走路、跑步、跳躍、戰鬥等。
虛擬實境/增強現實： 為虛擬角色製作動畫，使其更生動。
動畫製作： 快速製作短片、動畫廣告等。
電影特效： 為電影中的角色製作動作捕捉動畫。

AI 職場神器, AI 職場超神助手, Machine Learning, StableDiffusion

SF3D: Stable Fast 3D Mesh 生成工具

Post By Claire Chang 2024-08-06 下午 6:21

SF3D: https://stable-fast-3d.github.io

SF3D 是一個快速生成3D網格模型的模型，它可以在不到一秒鐘的時間內從單一圖片輸出一個帶有UV展開和材質的3D模型。這個模型基於大型重建模型（LRM），專門針對網格生成進行訓練，並且包含快速UV展開技術和去光照步驟，從而提升重建模型的視覺質量，使其在新的光照條件下也能使用。

Github網站

詳情請參閱：GitHub – Stability-AI/stable-fast-3d

Stable Fast 3D模型基於 TripoSR，但進行了改進，專注於生成無瑕疵的網格和帶有UV展開的紋理。SF3D 可以快速進行推理，並且生成的3D模型可以輕鬆整合到遊戲中。安裝環境需要 Python >= 3.8 和 CUDA，並且需要安裝 PyTorch。支持手動推理和本地 Gradio 應用的運行。

要安裝 SF3D，請按照以下步驟操作：

確保環境：
- Python 版本 >= 3.8
- 有 CUDA
- 安裝 PyTorch，確保 CUDA 版本匹配 PyTorch 安裝指南
- 更新 setuptools：pip install -U setuptools==69.5.1
安裝需求：
- 執行：pip install -r requirements.txt
- 若要使用 Gradio demo，則執行：pip install -r requirements-demo.txt
手動推論：
- 執行：python run.py demo_files/examples/chair1.png --output-dir output/
本地 Gradio App：
- 執行：python gradio_app.py

線上demo

https://huggingface.co/spaces/stabilityai/stable-fast-3d

我拿這張圖做為輸入，可以很不錯的生成3D模型

AI 職場神器, AI 職場超神助手, Machine Learning, StableDiffusion

AI技術於3D模型領域的應用

Post By Claire Chang 2024-08-06 下午 6:15

Meshy – 線上圖片轉3D模型fbx檔案

網站: https://www.meshy.ai/

Meshy 是您的 3D 生成式 AI 工具箱，用於輕鬆從文本或圖像創建 3D 資產，從而加速您的 3D 工作流程。使用 Meshy，您可以在幾分鐘內創建高品質的紋理和 3D 模型。

Meshy的功能

Meshy是一個創新的 3D 模型生成平台，提供以下強大的功能

文字轉紋理 (Text-to-Texture)：

透過簡單的文字描述，快速生成符合要求的紋理。
例如：輸入「磨損的木頭紋理」，Meshy 能夠在短時間內生成逼真的木頭紋理。

圖片轉紋理 (Image-to-Texture)：

將概念圖或參考圖片轉換成可套用的 3D 模型紋理。
這對於藝術家和設計師來說，能大幅提升工作效率。

文字轉 3D 模型 (Text-to-3D)：

僅需一段文字描述，就能生成完整的 3D 模型。
即使沒有 3D 建模經驗，也能輕鬆創造出想要的模型。

圖片轉 3D 模型 (Image-to-3D)：

這對於將 2D 概念快速轉換成 3D 模型非常有用。
從單張圖片中提取 3D 資訊，生成具體的 3D 模型。

探索社區資源

社區資源: https://docs.meshy.ai/web-app-interface#explore-community-resources

嘗試使用圖片產生3D模型

操作網址: https://www.meshy.ai/workspace/image-to-3d

操作非常的簡單，可直接按最右邊的下載來下載fbx檔案

AI 職場神器, AI 職場超神助手, Machine Learning, StableDiffusion

Stable Diffusion常用操作介面

Post By Claire Chang 2024-08-06 下午 4:49

Easy Diffusion

下載位置: https://easydiffusion.github.io/

特色：

簡易操作： 介面直觀，即使是新手也能快速上手。
模型豐富： 支援多種模型，可根據需求選擇。
擴充性強： 可透過外掛擴展功能。

優點：

學習曲線平緩，適合初學者。
功能齊全，能滿足大部分的繪圖需求。

缺點：

相較於其他工具，客製化選項可能較少。

ComfyUI

下載位置: https://github.com/comfyanonymous/ComfyUI

特色：

高度客製化： 提供極高的自由度，可打造專屬的工作流程。
功能強大： 除了繪圖，還能進行影像處理、動畫製作等。
社群活躍： 有龐大的社群提供支援和資源。

優點：

適合有經驗的使用者，可實現複雜的創作。
功能多樣，能滿足專業人士的需求。

缺點：

配置較為複雜。
學習曲線較陡峭，需要花時間熟悉。

Stable Diffusion web UI

下載位置: https://github.com/AUTOMATIC1111/stable-diffusion-webui

特色：

基於瀏覽器： 不需安裝軟體，直接在瀏覽器中使用。
社群豐富： 有大量的模型和腳本可供選擇。
擴充性強： 可透過擴充套件增加功能。

優點：

使用門檻低，適合初學者。
功能豐富，能滿足多種需求。

缺點：

相較於本地端軟體，速度可能較慢。

安裝指南

最終我選擇Stable Diffusion web UI，因為教學文章最多

AI 職場神器, AI 職場超神助手, Machine Learning

ChatGPT / Bing / Bard / Claude指南

Post By Claire Chang 2024-02-06 上午 7:57

一、介紹人工智慧

這邊主要是在說明人工智慧演進的過程，其實人工智慧的概念第一時間是在1950年時，由圖靈所提出，定義為一個人透過鍵盤和另一個對象溝通，如果施測者無法分辨與之對話的對象是人還是機器的話, 這個機器就被認為擁有「智慧」

但這個時候人工智慧的實作方式還比較以符號邏輯(類似統計學這樣以符號代表抽象的概念)為主，但很難清楚的釐清人類的思考邏輯。後來專家系統時代，人類會嘗試針對每個領域的知識去化作一條條的規則

但是，人類所能表達的，遠比人類所知道的少(博藍尼悖論)，因此我們很難很完整的把我們所知道的化作規則或思考邏輯來打造人工智慧。

從2010年至今，我們進入的資料至上的時代，也就是我們開始直接丟資料給電腦，由電腦去歸納、找出電腦自己看得懂的規則，這也是為什麼ChatGPT等生成式AI的結果帶有部分的不可控、不可預測性。

了解AI的演進過程可以讓我們了解當我們要選擇AI技術時，可能可使用的選擇。雖然2010年後的機器學習技術能夠做到最廣泛的通用人工智能，但是若我們的需求範圍較為侷限，或者需要非常高的可解釋性、準確性時，仍然可以考慮符號邏輯或專家系統的方式來實做。

這些演進的歷程都是現在生成式AI能夠出現的重要基礎，每一代之間的關係不是淘汰，而是一層層的進化。

二、基礎模型帶來AI再一次的革命

在這邊我強調了在ChatGPT出現之前的AI應用，大多都用在中、大型企業內部或智能相關產品的應用。但是ChatGPT出現之後，AI從產業研發進入全民有感，並且掀起了非常大的AI風潮。

這是因為基礎模型的出現，所謂基礎模型就是類似ChatGPT這樣用途可以非常廣泛，並且可以透過詞嵌入的方式，以非常快速簡單的prompt方式，打造不同的產品。

例如下圖中的GitHub Copilot、智慧錄音卡、Notion AI、AI心理諮商，其實都是使用ChatGPT的模型，卻可以使用在多種非常不同的應用場景上(心理安慰、生活便利、程式開發等不同用途)

這樣的一個基礎模型的出現，帶來開發AI應用的革命性變革，過去，有些AI應用程式可能需要我花上六個月、甚至一年的時間來建立，現在許多團隊可能一週就能完成

以ChatGPT的自製一個聊天機器人為例，現在只需要上傳一些機器人需要知道的文件資料、並且使用對話的方式指導機器人該如何正確回應，就可以擁有一個專屬的客製對話機器人

三、生成式AI相關的應用

有興趣的可以自行去研究、了解現在AI可以做到那些事情

文本生成（LLM）

圖像生成 (text-to-image)

音樂 / 聲音生成

程式碼生成

四、多模態應用

基礎模型另一個強大之處，在於可以結合視覺、聽覺、文字的輸入，以及對不同型態輸入資料的交叉理解，能夠讓AI朝【通用型人工智慧】更加靠近

五、善用AI為生產力的新動能

ChatGPT: https://chat.openai.com/
Bing: https://www.bing.com/
Bard: https://bard.google.com/chat
Claude: https://claude.ai/login?returnTo=%2F

特點/模型	Bard(Google)	ChatGPT (OpenAI)	ChatGPT Plus (OpenAI)	Bing (Microsoft)	Claude (Anthropic)
上下文窗口長度(Token)	32K	4K	8K	8K	100K
推理能力	不錯	最佳	最佳	不明	不錯
網路連接功能	原生支持網路搜尋	無法讀取網頁	需連至Bing取得網頁內容	所有用戶可用的連接功能	無法讀取網頁
多模態能力	支持文字、圖像、語音輸入	無	支持圖像、語音及文字輸入，以及圖像、文字、檔案輸出	支持文字輸入，圖像、文字輸出	支持PDF等檔案的文字讀取
建議用途	圖像辨識	初次接觸者	皆可	資訊搜尋	長文PDF摘要
費用	免費	免費	每月$20美金	免費	免費
主要用途	研究、資料分析、聊天	程式碼開發、聊天	多模態及與其他服務的串接應用	網路搜尋、聊天	研究、分析

AI成為生產力的新動能，用戶在人工智慧輔助下完成工作的效率要高得多

Claire's Blog

分類: AI 職場神器

Kling – 文生影片大模型

Kling簡介

使用範例

核心特點

應用場景

Animate Anyone: 圖片+骨架動畫產生動態影片

模型介紹頁面

模型概念

GitHub位置

Mixamo：你的3D角色動畫工廠

3D 角色動畫服務的線上平台

Mixamo 的主要功能