• WebRTC 點對點特性帶來的複雜性

    什麼是WebRTC WebRTC(Web Real-Time Communication)是一種開源技術,允許瀏覽器和移動應用程序進行音頻、視頻和數據的實時通信。它能夠在瀏覽器內直接進行音頻和視頻通話,無需安裝任何插件或額外的軟件,這大大簡化了用戶的操作。支持多種平台,包括Web、Android、iOS、Windows、MacOS和Linux。其非常的低延遲,這對於需要即時反應的應用場景(如視頻會議、在線遊戲等)非常重要。 WebRTC的關鍵技術 參考資料:https://webrtc.github.io/webrtc-org/architecture/ WebRTC 的架構分為兩個主要層次,一層是針對瀏覽器開發者的 WebRTC C++ API,另一層是針對網絡應用開發者的 Web API。 WebRTC 支援的音訊與影像引擎具備多種功能,包括各種音訊編解碼器(如 iSAC、iLBC、Opus)、回音消除(AEC)、降噪(NR)、影像編解碼器(如 VP8)、影像抖動緩衝(Video Jitter Buffer)以及畫面增強等。除此之外,WebRTC 的傳輸與會話層包含 RTP 網路層、STUN/ICE 用於網路連線建立,以及抽象的會話管理層,讓應用開發者可自行選擇協議實作方式。 技術目標與限制 WebRTC 的目標是打造一個強大的端對端即時通訊平台,讓開發者能創建豐富的即時多媒體應用,並能夠在不同的網頁瀏覽器及平台上執行。 WebRTC 是一種支持瀏覽器間進行實時音視頻通信的技術,利用點對點(P2P)的 UDP 傳輸來實現低延遲的數據流傳輸。然而,由於網絡環境中的 NAT(Network Address Translation)和防火牆的存在,直接的 P2P 連接可能會受到限制。因此,WebRTC 使用了 ICE 框架來解決 NAT 穿透問題。…

    Continue Reading…: WebRTC 點對點特性帶來的複雜性

  • ,

    介紹 OpenAI o1-preview

    官網介紹o1-preview 介紹 OpenAI o1-preview:https://openai.com/index/introducing-openai-o1-preview 首次瞭解:探索 GitHub Copilot 中的 OpenAI o1:https://github.blog/news-insights/product-news/openai-o1-in-github-copilot/ 在2024/9/12,OpenAI推出了o1-preview的模型,這個模型的最大特色就是具備有先進推理能力,可解決難題。測試顯示o1-preview在程式碼分析和優化方面效果良好。該模型能思考挑戰並能夠將複雜任務分解為步驟,這可以優化程式碼以解決性能問題,加速開發工作流程。 透過這樣的思考流程,ChatGPT可以完成更複雜的程式撰寫任務,過去,我們仍會需要透過人的思考將任務拆細後一步一步請ChatGPT幫忙完成,再由工程師將任務功能組合起來,而現在o1-preview則自己就能夠具備有將複雜任務拆細的能力。 從下圖可看見,ChatGPT的程式撰寫能力瞬間從11分進步到89分(圖片來源: https://openai.com/index/learning-to-reason-with-llms/) o1-preview 模型的新功能總覽 隨著 o1-preview 模型的推出,這個模型在性能、功能和未來更新方向上展現了許多新亮點。 o1-preview 模型功能實測 先說結論,真的非常的強,不論是產生程式、理解程式、修改程式,都和過去是完全不同等級的狀況!非常的厲害。 這是我今天使用o1-preview 來製作一個HTML的俄羅斯方塊的對話紀錄,可以看到ChatGPT完美的完成任務,真的是沒有BUG的完整的遊戲,而且修改的動作也都非常的完美,真的可以靠指令達到我的許多要求。我覺得這樣的程度的模型是真的會影響到許多工程師的未來性。 對話紀錄在此:https://chatgpt.com/share/66e6bcf1-4254-8005-a573-a250e1b51702 我們可以看見現在的o1-preview會有著更多細緻的思考流程,為我們將一個很大的指令拆分成許多個步驟,並重新檢視、整個整個程式碼,接著則是設置遊戲的玩法。 接著我請他增加計分板和顯示下一個方塊的功能也完美達成 請他幫忙調整版面也非常完美的完成功能 這個是成果:https://claire-chang.com/wp-content/uploads/2024/09/test.html 操作說明:

    Continue Reading…: 介紹 OpenAI o1-preview

  • 利用emscripten來編譯WebAssembly 

    WebAssembly 是甚麼 WebAssembly(Wasm)是一種二進制格式的指令集,用於在網頁瀏覽器中高效地執行程式碼。它由 W3C 標準組織制定,目的是提供一種高性能、跨平台的執行環境,讓開發者可以在網頁上運行接近原生效能的應用程式,尤其是使用 C、C++、Rust 等語言編寫的程式碼。 以下是 WebAssembly 的主要特點: WebAssembly 是一種讓網頁能夠運行接近原生應用效能的技術,特別適合對性能要求較高的應用,同時保持了跨平台的便利性。 WebAssembly 的應用場景 使用Emscripten將C專案編譯為WebAssembly Emscripten 是一個開源編譯器工具,可以將用 C 和 C++ 編寫的程式碼編譯成 WebAssembly(.wasm)或 JavaScript,使這些程式能夠在瀏覽器中運行。它的主要目的是讓開發者能夠將桌面應用程式、遊戲或其他基於 C/C++ 的軟體移植到網頁環境中。 具體來說,Emscripten 的功能有以下幾個重點: Emscripten安裝流程 下載檔案 https://github.com/msys2/msys2-installer/releases/download/2024-01-13/msys2-x86_64-20240113.exe 開啟模擬器 開啟ucrt64.exe 安裝所需套件 安裝Emscripten 測試 安裝libde265.js ———->引用 gcc 或 g++ 的行。對於…

    Continue Reading…: 利用emscripten來編譯WebAssembly 

  • ,

    Coze:快速產生專屬於你的聊天機器人

    Coze是甚麼 Coze是ByteDance出來的一個AI聊天機器人開發平台,讓你不會寫程式也能建立自己的AI聊天機器人,在這個平台可以用拖拉的方式來完成創建、設定、發布、管理專屬於你的聊天機器人功能,並與多種平台如Line、Slack、Telegram等整合。這平台支持各種AI應用,像是客服、資訊助手或是其他智能工具。 官方網站:https://www.coze.com/home Coze的主要優勢 其主要優勢如下: 可以直接詢問機器人如何使用Coze 在登入之後,Home這邊會有一個Coze的專屬客服機器人,透過詢問機器人問題,可以請機器人幫我們搜尋教學文檔。 創建步驟詳細圖文教學 最主要要創建自己的客服機器人我們可以按下左側的Personal進入創建介面: Coze的個人區域允許用戶管理他們的機器人、插件、工作流程、知識庫,以及其他個人化設定。這個區域有幾個主要標籤: 例如透過以下Workflows創建範例就可以建立一個可以回覆我的相關背景資訊的客服機器人: 上圖的工作流程包括了幾個主要的步驟和節點,來處理和回答用戶的輸入。 整個工作流程通過這些互相連接的節點來自動化處理用戶輸入,生成並提供相關的回答。這種設計允許機器人以高效且靈活的方式回應用戶,並可以根據需要輕鬆地修改或擴展其功能。 這樣的對話機器人可以直接經由簡單設定發佈到Coze Bot Store、Cici、Discord、Telegram、Messenger、LINE、Instagram、Slack、Lark和WhatsApp多種平台。 下面為一個使用範例: Coze要如何收費? Coze提供多種收費方案,根據不同用戶的需求,從免費到高級的付費方案都有。收費方案大約有以下幾種: 各個方案都提供不同的AI模型使用權限,例如GPT-3.5、Gemini 1.5 Flash、Claude 3 Haiku等,並根據模型的收取不同的信息額度。例如,使用GPT-40 mini會消耗比GPT-3.5更多的額度。 選擇方案時,應該考慮以下因素: 根據這些指標,你可以選擇最符合你需求的方案,以確保你支付的費用與你從Coze獲得的價值相匹配。如果你剛開始使用,可以從免費方案開始,隨著需求增長再升級到更高級的方案。

    Continue Reading…: Coze:快速產生專屬於你的聊天機器人

  • ,

    ControlNet: 放大您的圖像控制能力

    探索ControlNet如何革新Stable Diffusion的圖像生成過程。學習姿勢控制、線稿生成、深度圖應用等技術,掌握AI圖像創作的新境界。深入了解ControlNet在Stable Diffusion中的應用,掌握AI圖像生成的精確控制技巧。本文詳細介紹ControlNet模型類型、使用方法與調參技巧。

    Continue Reading…: ControlNet: 放大您的圖像控制能力

  • ,

    ControlNet使用的錯誤排解

    無法載入ControlNet 錯誤訊息如下: *** Error loading script: face_manipulation_extras.pyTraceback (most recent call last):File “C:\Users\clairechang\stable-diffusion-webui-master\modules\scripts.py”, line 515, in load_scriptsscript_module = script_loading.load_module(scriptfile.path)File “C:\Users\clairechang\stable-diffusion-webui-master\modules\script_loading.py”, line 13, in load_modulemodule_spec.loader.exec_module(module)File “”, line 883, in exec_moduleFile “”, line 241, in call_with_frames_removed File “C:\Users\clairechang\stable-diffusion-webui-master\extensions\sd-webui-face-manipulation-extras\scripts\face_manipulation_extras.py”, line 4, in from face_manipulation.main…

    Continue Reading…: ControlNet使用的錯誤排解

  • ,

    ADetailer: 自動人臉檢測和高品質修復

    深入探討ADetailer插件如何自動識別並修復Stable Diffusion生成的人臉和手部畸形問題。了解其安裝方法、功能特點和各種模型的應用。

    Continue Reading…: ADetailer: 自動人臉檢測和高品質修復

  • ,

    Stable Diffusion主要功能和應用

    官方網站 https://stability.ai 可看見現在這個平台所提供的相關工具包括: 圖像生成、影像生成、音樂生成、3D模型生成、文字生成 開源社群 https://civitai.com 可下載許多人自己生成的模型和相關微調模型,還有許多澀澀的(?)圖片 主要功能 – 圖像生成 根據文本生成圖像 創意生成 圖像生成使用模型為: SD1.x, SD2.x, SDXL SDXL 是目前 Stable Diffusion 系列中最新的模型之一。它在 SD2.x 的基礎上進一步提升了圖像的品質和細節,尤其是在處理複雜的場景和人物時表現更加出色。SDXL 還能夠生成更加多樣化的圖像風格,為用戶提供了更多的創作可能性。 更多資訊: https://chrislee0728.medium.com/stable-diffusion-xl-%E8%AA%AA%E6%98%8E%E5%8F%8A-sdxl1-0-%E5%AE%89%E8%A3%9D%E6%95%99%E5%AD%B8-b2f7648d49ff 主要功能 – 圖像修改和增強 圖像修復 圖像編輯 技術介紹 要使用Stable Diffusion來做到圖像修復或者是圖像編輯,需要安裝相關ADetailer的外掛,以下為一個範例 https://blog.csdn.net/2401_84250575/article/details/138863838 以Web ui為例,可以安裝ADetailer的擴展套件,就可以讀取相關的模型來修復圖片 主要功能 – 多模態應用 圖像-文本匹配…

    Continue Reading…: Stable Diffusion主要功能和應用

  • ,

    Kling – 文生影片大模型

    探索Kling這款革命性的AI影片生成工具,它能將文本轉換成高質量的影片。本文深入介紹Kling的核心功能、使用方法和應用場景,展示如何利用大型語言模型技術快速創建專業級影片內容,為內容創作者和行銷人員提供高效的影片製作解決方案。

    Continue Reading…: Kling – 文生影片大模型

  • ,

    Animate Anyone: 圖片+骨架動畫產生動態影片

    模型介紹頁面 https://humanaigc.github.io/animate-anyone Animate Anyone 是一個工具,可以將靜態圖片和骨架動畫結合起來,生成動態影片。它使用先進的 AI 技術,保留圖片細節並保持動畫的連貫性。這個工具適合用於人類角色、動漫和時尚視頻等的動畫製作。 模型概念 GitHub位置 https://github.com/HumanAIGC/AnimateAnyone 不過我們可以看到現在這個Github上只有介紹而已,但是他們說因為他們正在把原始碼改得更易讀,所以仍需一些時間才能夠把開源代碼上傳上來,就讓我們持續等待吧~

    Continue Reading…: Animate Anyone: 圖片+骨架動畫產生動態影片


17年資歷女工程師,專精於動畫、影像辨識以及即時串流程式開發。經常組織活動,邀請優秀的女性分享她們的技術專長,並在眾多場合分享自己的技術知識,也活躍於非營利組織,辦理活動來支持特殊兒及其家庭。期待用技術改變世界。

如果你認同我或想支持我的努力,歡迎請我喝一杯咖啡!讓我更有動力分享知識!