Posted on

影像分割模型介紹

Image Segmentation介紹

影像分割(Image Segmentation)是電腦視覺中的一個基本任務,目的是將數字影像劃分成多個片段(或稱為「超像素」),使得具有相似性質的像素群組成同一片段。影像分割的目的是簡化或改變影像的表示形式,使其更容易被分析。以下是關於影像分割的詳細介紹:

  1. 目標
    • 將影像中具有相似特性(如顏色、強度、紋理)的像素分到同一區域。
    • 賦予影像的每一個像素一個標籤,該標籤指示該像素屬於哪一物體或區域。
  2. 分割技術類型
    • 閾值分割:根據像素值的閾值將影像分成兩個或多個部分。
    • 基於區域的分割:從種子點開始,將相鄰的像素添加到區域中,直到符合某些條件。
    • 基於邊緣的分割:檢測影像中的邊緣(突然的強度變化)來劃分區域。
    • 基於聚類的分割:例如 K-means,將像素分為擁有相似特性的多個群體。
    • 神經網路和深度學習:如 U-Net, DeepLab 等模型,用於更複雜的影像分割任務。
  3. 應用
    • 醫學影像:例如,從 MRI 影像中識別出不同的器官或病變區域。
    • 遙感:劃分地表的不同區域,如水域、森林、城市等。
    • 物體識別和跟踪:識別影像中的特定物體。
    • 電腦視覺任務:如場景理解、影像修復、3D 建模等。
  4. 評估
    • 可以使用像 Jaccard 系數(Intersection over Union, IoU)這樣的指標來評估分割模型的性能。

影像分割作為電腦視覺中的一個核心任務,在許多應用中都扮演著重要的角色,且隨著深度學習的發展,其效果和應用領域持續擴展。

使用深度學習做影像分割

深度學習和神經網路在影像去背上已取得了驚人的成果。常見的模型如下:

  1. U-Net 結構:
    • U-Net是一種用於影像分割的卷積神經網路(CNN)結構。
    • 它具有縮小(下採樣)和擴展(上採樣)的部分,使其形狀像字母“U”。
    • U-Net非常適合進行像素級別的分類,如分離前景和背景。
  2. Mask R-CNN:
    • Mask R-CNN是一種用於實例分割的方法,可以同時偵測物件並生成對應的遮罩。
    • 它結合了Faster R-CNN(用於物件偵測)和一個額外的遮罩分支。
  3. DeepLab:
    • DeepLab是一個強大的影像分割模型,它使用了空間金字塔池化和全卷積網路。
    • 它能夠精確地捕捉物件的邊界,使其適合去背任務。

火紅的模型U-Net介紹

網路的介紹文章: https://ithelp.ithome.com.tw/articles/10240314

  • 起源:U-Net 最初是為了醫學影像分割而設計的,特別是在數據集相對較小的情境下。
  • 架構:U-Net 架構具有對稱的編碼器和解碼器部分。編碼器進行下採樣,而解碼器進行上採樣。兩者之間有跳躍連接,這意味著對應的編碼器和解碼器層之間的特徵被結合在一起,這有助於模型獲取更精確的位置信息。

去背改良版U2NET

網路相關教學文章: https://blog.csdn.net/xuzz_498100208/article/details/109912302

  • 起源:U^2-Net 被設計為一個更深的網絡結構,用於進行較為複雜的影像分割和去背工作。
  • 架構:U2-Net 的名稱意味著「U-Net 的 U-Net」,這是因為它的設計理念是將多個 U-Net 結構嵌套在一起。具體來說,它利用了深層和淺層的嵌套U-Net架構來捕獲多尺度特徵。U2-Net 的重要組件是其嵌套的殘差結構,這有助於模型學習從各種層次獲取的資訊。U2-Net的架構包括六個編碼器階段和五個解碼器階段,以及一個用於融合顯著地圖的模塊。它通過嵌套的U結構從不同階段有效提取多尺度特徵,從而實現了顯著對象檢測的優異性能。該方法對於克服現有骨幹網絡的限制和提高檢測性能具有重要意義。
  • 特性:由於其深度和複雜的架構,U^2-Net 在某些情境下可能比 U-Net 有更好的性能,特別是在需要捕獲多尺度特徵的情境下。