影像分割模型介紹 – Claire's Blog

Image Segmentation介紹

影像分割（Image Segmentation）是電腦視覺中的一個基本任務，目的是將數字影像劃分成多個片段（或稱為「超像素」），使得具有相似性質的像素群組成同一片段。影像分割的目的是簡化或改變影像的表示形式，使其更容易被分析。以下是關於影像分割的詳細介紹：

目標：
- 將影像中具有相似特性（如顏色、強度、紋理）的像素分到同一區域。
- 賦予影像的每一個像素一個標籤，該標籤指示該像素屬於哪一物體或區域。
分割技術類型：
- 閾值分割：根據像素值的閾值將影像分成兩個或多個部分。
- 基於區域的分割：從種子點開始，將相鄰的像素添加到區域中，直到符合某些條件。
- 基於邊緣的分割：檢測影像中的邊緣（突然的強度變化）來劃分區域。
- 基於聚類的分割：例如 K-means，將像素分為擁有相似特性的多個群體。
- 神經網路和深度學習：如 U-Net, DeepLab 等模型，用於更複雜的影像分割任務。
應用：
- 醫學影像：例如，從 MRI 影像中識別出不同的器官或病變區域。
- 遙感：劃分地表的不同區域，如水域、森林、城市等。
- 物體識別和跟踪：識別影像中的特定物體。
- 電腦視覺任務：如場景理解、影像修復、3D 建模等。
評估：
- 可以使用像 Jaccard 系數（Intersection over Union, IoU）這樣的指標來評估分割模型的性能。

影像分割作為電腦視覺中的一個核心任務，在許多應用中都扮演著重要的角色，且隨著深度學習的發展，其效果和應用領域持續擴展。

深度學習和神經網路在影像去背上已取得了驚人的成果。常見的模型如下:

U-Net 結構:
- U-Net是一種用於影像分割的卷積神經網路（CNN）結構。
- 它具有縮小（下採樣）和擴展（上採樣）的部分，使其形狀像字母“U”。
- U-Net非常適合進行像素級別的分類，如分離前景和背景。
Mask R-CNN:
- Mask R-CNN是一種用於實例分割的方法，可以同時偵測物件並生成對應的遮罩。
- 它結合了Faster R-CNN（用於物件偵測）和一個額外的遮罩分支。
DeepLab:
- DeepLab是一個強大的影像分割模型，它使用了空間金字塔池化和全卷積網路。
- 它能夠精確地捕捉物件的邊界，使其適合去背任務。

起源：U-Net 最初是為了醫學影像分割而設計的，特別是在數據集相對較小的情境下。
架構：U-Net 架構具有對稱的編碼器和解碼器部分。編碼器進行下採樣，而解碼器進行上採樣。兩者之間有跳躍連接，這意味著對應的編碼器和解碼器層之間的特徵被結合在一起，這有助於模型獲取更精確的位置信息。

起源：U^2-Net 被設計為一個更深的網絡結構，用於進行較為複雜的影像分割和去背工作。
架構：U2-Net 的名稱意味著「U-Net 的 U-Net」，這是因為它的設計理念是將多個 U-Net 結構嵌套在一起。具體來說，它利用了深層和淺層的嵌套U-Net架構來捕獲多尺度特徵。U2-Net 的重要組件是其嵌套的殘差結構，這有助於模型學習從各種層次獲取的資訊。U2-Net的架構包括六個編碼器階段和五個解碼器階段，以及一個用於融合顯著地圖的模塊。它通過嵌套的U結構從不同階段有效提取多尺度特徵，從而實現了顯著對象檢測的優異性能。該方法對於克服現有骨幹網絡的限制和提高檢測性能具有重要意義。
特性：由於其深度和複雜的架構，U^2-Net 在某些情境下可能比 U-Net 有更好的性能，特別是在需要捕獲多尺度特徵的情境下。