我的新書AI 職場超神助手:ChatGPT 與生成式 AI 一鍵搞定工作難題的教材投影片已製作完成
歡迎各位有需要的教師和博碩文化索取教材

Technology Research

  • ,

    Segment Anything研究筆記

    Segment Anything介紹 論文網址: https://arxiv.org/pdf/2304.02643.pdf GitHub地址: https://github.com/facebookresearch/segment-anything 這份內容介紹了「Segment Anything」(SA)計畫,它包括了一個新的圖像分割任務、模型和數據集。使用高效的模型,在數據收集過程中建立了迄今為止最大的分割數據集,擁有超過10億個遮罩和1100萬張的圖像。這個模型設計和訓練成可提示,因此它可以進行zero-shot轉移到一系列任務,通過提示工程(prompt)實現。模型的zero-shot性能印象深刻,通常與或優於以前的完全監督結果競爭。他們公開了「Segment Anything Model」(SAM)和相應的數據集(SA-1B),以促進計算機視覺基礎模型的研究。 SAM模型由圖像編碼器、提示編碼器和遮罩解碼器三個組件組成,旨在實現高效運行和實時互動提示。數據引擎包括三個階段,從手動標註到半自動標註,最後實現完全自動生成遮罩。最終數據集SA-1B包括1100萬張高分辨率圖像和10億多個高質量分割遮罩,可供未來計算機視覺基礎模型的研究使用。該數據集的質量經過詳細分析,結果顯示自動生成的遮罩質量很高。 此外,文中還提到了有關模型效能、數據集特性以及公平性考這份內容介紹了「Segment Anything」(SA)計畫,它包括了一個新的圖像分割任務、模型和數據集。使用高效的模型,在數據收集過程中建立了迄今為止最大的分割數據集,擁有超過10億個遮罩和1100萬張許可和隱私尊重的圖像。這個模型設計和訓練成可提示,因此它可以進行零-shot轉移到一系列任務,通過提示工程實現。模型的零-shot性能印象深刻,通常與或優於以前的完全監督結果競爭。他們釋放了「Segment Anything Model」(SAM)和相應的數據集(SA-1B),以促進計算機視覺基礎模型的研究。 此外,文中還提到了有關模型效能、數據集特性以及公平性考慮的討論。該計畫的目標是促進基礎模型的發展,以應對圖像分割等廣泛的計算機視覺問題。整體來說,這個計畫提供了一個重要的資源,用於研究和開發計算機視覺基礎模型。 Segment Anything做了甚麼 1. 啟示來源: 2. 定義分割任務: 3. 預訓練策略: 4.…

  • ,

    U2Net模型的去背應用

    官方GitHub: https://github.com/danielgatis/rembg/tree/main 安裝方式 CPU support GPU support 首先要去安裝onnxruntime-gpu,接著 使用範例 下面為一個讀取攝影機的簡單去背使用範例 Stable Diffusion WebUI Rembg Stable Diffusion WebUI所使用的去背功能也是這個唷! 相關介紹文章: https://zhuanlan.zhihu.com/p/648234420 可以參考WebUI的參數去尋找相關程式碼可設定的部分,例如Erode size、Foreground threshold、Background threshold 模型去背測試 原始影像如下圖 模型列表…

  • ,

    影像分割模型介紹

    Image Segmentation介紹 影像分割(Image Segmentation)是電腦視覺中的一個基本任務,目的是將數字影像劃分成多個片段(或稱為「超像素」),使得具有相似性質的像素群組成同一片段。影像分割的目的是簡化或改變影像的表示形式,使其更容易被分析。以下是關於影像分割的詳細介紹: 影像分割作為電腦視覺中的一個核心任務,在許多應用中都扮演著重要的角色,且隨著深度學習的發展,其效果和應用領域持續擴展。 使用深度學習做影像分割 深度學習和神經網路在影像去背上已取得了驚人的成果。常見的模型如下: 火紅的模型U-Net介紹 網路的介紹文章: https://ithelp.ithome.com.tw/articles/10240314 去背改良版U2NET 網路相關教學文章: https://blog.csdn.net/xuzz_498100208/article/details/109912302

  • ,

    Transformer 模型於機器視覺的應用

    論文來源 – CAPABILITIES – Vision 在 2021 年 8 月的一篇論文中,史丹佛大學的研究人員將 Transformer 模型稱為「基礎模型」,他們認為這些模型推動了人工智慧的典範移轉。他們寫道:「在過去幾年,基礎模型之規模和範圍擴大了我們對可能性的想像。」 On the Opportunities and Risks of Foundation Models Transformer 模型帶來的突破 在電腦視覺領域,Transformer模型能將來自多種來源和感測器的原始資料轉化成視覺知識,此知識適用於多種應用場景。這種思路其實是過去十年在該領域漸漸發展起來的。尤其是ImageNet的出現和監督式預訓練的技術,都帶領了電腦視覺朝向深度學習的方向演變。現今的深度學習模型超越了早期的傳統方法,能夠在大量資料上訓練後,再應用於如圖像識別、物件偵測和圖像分割等不同任務,這樣的思維持續為Transformer模型所採納。 Transformer模型的發展背後是先前方法的限制。傳統的監督學習需要昂貴且仔細收集的標籤,這限制了它的穩定性、泛化性和適用性。相對地,自我監督學習的進步為發展Transformer模型提供了新路徑,讓它能從大量的原始資料中獲取對視覺世界的上下文理解。雖然相對於整個領域的廣泛目標,Transformer模型的能力還在初級階段,但已在傳統電腦視覺任務上展現出增強的泛化能力,且預計這種進展會持續。長遠來看,Transformer模型減少對明確標籤的依賴可能會帶來如常識推理等基礎認知技能的進步,這在傳統監督學習中一直難以達成。 過去機器視覺的關鍵功能 這些任務涵蓋了電腦領域的多個方面,包括: 深度學習模型的主要進展源於ImageNet資料集的引入。通常,模型先在像圖像分類這樣的監督訓練任務上進行訓練,然後根據特定的任務和資料集進行調整,以適應該任務或領域的需求。…

  • ,

    Transformer:自然語言處理的里程碑

    深入探討Transformer模型的核心架構和工作原理。本文詳細解析了Transformer的編碼器-解碼器結構、自注意力機制、多頭注意力等關鍵組件,並闡述其在機器翻譯等自然語言處理任務中的應用。適合想要全面了解Transformer技術及其在BERT、GPT等模型中應用的AI研究者和開發者。

  • ,

    AI大師論壇:人工智慧如何形塑人類未來

    YOUTUBE連結: https://www.youtube.com/watch?v=k7aFffQn5vU 本篇文章所有圖片皆來自於永齡基金會 YouTube 講者介紹 吳恩達(1976-,英文名:Andrew Ng),華裔美國人,是斯坦福大學計算機科學系和電子工程系副教授,人工智能實驗室主任。吳恩達是人工智能和機器學習領域國際上最權威的學者之一。吳恩達也是在線教育平台Coursera的聯合創始人(with Daphne Koller),DeepLearning.AI創始人。 他的其他分享 AI 大神吳恩達降臨──告訴你如何成為創新者 【ChatGPT 之父來台】Sam Altman、吳恩達重磅開講!談 AI 將如何顛覆世界 現在AI應用的狀況 兩個重要的概念 大模型的時代 從2010-2020,進入了GPU加速的大模型的時代。這是因為GPU的支持,讓模型可以學習更多的資料,這也讓生成式AI有機會發展起來 AI的革命 – 生成式AI的發展 CHATGPT利用不停地去預測下一個字來完成文字的生成,可以產生非常長的回應文字。吳恩達認為這樣的生成式模型會很大的改變現有的模型生態…

  • ,

    使用現有模型標記新圖片

    Auto Labeling 因為在標記時常會花費很多的時間和力氣,現在市面上有許多auto labeling的工具,例如前一陣子meta有發表一個模型,還引起注目叫做SAM: https://segment-anything.com/ 以下為一個簡單的使用範例 成果如下: Roboflow的智慧圈選工具 在Roboflow也有類似的智慧圈選工具,可以自動為我們圈選目標的形狀,使用方式如下 使用現有模型標記YOLO格式label 但是若我們想要使用既有的模型訓練一些新的圖片,在新的圖片,若要標記一些常見的物品,如汽車、人、機車等…。這些東西因為在YOLO這種模型,預設的偵測狀況就很不錯了,有的時候為了要讓標記更快速,可以使用現有模型把預測的結果轉為標記檔案,再匯入Roboflow等標記軟體檢視標記狀況並修正錯誤的標記,會可以使標記工作更輕鬆。 預測結果轉標記程式碼 這邊是預測的result的相關文件: https://docs.ultralytics.com/reference/engine/results/#ultralytics.engine.results.Results.tojson 我真的覺得yolov8做的很用心的點,在於他的說明超級清楚,尤其是在程式碼本身上面,我們可以單單藉由下面程式碼印出詳細返回的物件結構,然後就可以了解該如何取得我們所需的物件資訊 從API我們可以得知,若我們使用的是yolo-seg,則吐回的座標資訊可參考這個返回值 完整預測結果轉標記的程式範例 設定folder_path到images的資料夾,label會放到相對應的labels資料夾下 把YOLO格式轉為COCO格式 請參考此專案: https://github.com/Taeyoung96/Yolo-to-COCO-format-converter/tree/master

  • ,

    尋找pretrain model的好地方

    https://paperswithcode.com/sota “SOTA” 是 “State-of-the-Art” 的縮寫,意為 “最先進技術”。在計算機科學和人工智能領域,SOTA模型指的是當前被認為是在某個特定任務或領域內表現最優秀的模型或方法。這些模型通常代表了當前領域內的最高水平,並在諸如自然語言處理、計算機視覺、語音識別等各種任務中發揮著重要作用。

  • ,

    常見的Computer Vision Tasks

    下面是四種常見的計算機視覺任務的簡要介紹: 分類(Classification) 分類任務是將輸入圖像分為不同的類別或類別之一。例如,給定一張圖像,分類任務的目標是確定圖像中顯示的對像是什麼,比如貓、狗、汽車、飛機等。這通常涉及訓練一個分類器,以便它能夠識別圖像中的特定特徵並將其歸類到正確的類別中。 語義分割(Semantic Segmentation) 語義分割任務是為圖像中的每個像素分配一個類別標籤,從而實現像素級別的分類。與分類任務不同,語義分割不僅關注對象的類型,還考慮了對象的位置和邊界。這在許多應用中很有用,比如圖像分割、醫學圖像分析等。 語義分割是一種計算機視覺任務,旨在將圖像中的每個像素分配給預定義的語義類別。在語義分割中,每個像素都被標記為屬於某個特定的類別,如人、車、樹等。語義分割遵循像素級別的分類,因此通常使用像素級別的掩碼(即”masks”)來表示圖像中每個類別的區域。這些分割掩碼是二進製圖像,其中每個像素要嘛屬於某個類別,要嘛不屬於。 有名模型: U-Net  和實例分割最大的不同是他的輸入會是兩張圖片,一張為原圖,一張為掩碼的圖 目標檢測(Object Detection) 目標檢測任務涉及在圖像中識別並定位多個不同類別的對象。相比於分類任務,目標檢測不僅需要標識對象的類別,還需要確定它們的位置和邊界框。常見的目標檢測算法可以提供每個檢測到的對象的邊界框和類別信息。具代表性的演算法包括Faster R-CNN, YOLO, SSD等 這篇文章介紹了許多我們常用的物件偵測模型: https://zhuanlan.zhihu.com/p/38709522 實例分割(Instance Segmentation) 實例分割任務結合了目標檢測和語義分割的概念,不僅要對每個對象進行分類,還需要在像素級別區分出每個對象的邊界。實例分割旨在識別圖像中的每個獨立實例並為每個實例分配獨特的標籤,從而在一個圖像中區分出不同的對象。 例如: COCO SegmentationCOCO(Common Objects…

  • , ,

    資料增強好工具 – Albumentations

    官方資訊 GITHUB: https://github.com/albumentations-team/albumentations 官方文檔: https://albumentations.ai/docs/getting_started/transforms_and_targets/ 官方範例: https://github.com/albumentations-team/albumentations_examples/blob/master/notebooks/pytorch_semantic_segmentation.ipynb Albumentations介紹 Albumentations 是一個流行的計算機視覺數據增強庫,專門設計用於圖像分類、目標檢測、分割等任務。它提供了豐富的圖像增強技術,可以幫助您在訓練深度學習模型時提升模型的性能和魯棒性。 Albumentations 支持多種常用的深度學習框架,如PyTorch和TensorFlow。 以下是 Albumentations 的一些特點和功能: 使用範例 以下是一個使用 Albumentations 的簡單示例,演示如何將一些常見的增強操作應用於圖像數據: https://github.com/albumentations-team/albumentations_examples/blob/master/notebooks/pytorch_semantic_segmentation.ipynb


17年資歷女工程師,專精於動畫、影像辨識以及即時串流程式開發。經常組織活動,邀請優秀的女性分享她們的技術專長,並在眾多場合分享自己的技術知識,也活躍於非營利組織,辦理活動來支持特殊兒及其家庭。期待用技術改變世界。

如果你認同我或想支持我的努力,歡迎請我喝一杯咖啡!讓我更有動力分享知識!