Image Segmentation介紹
影像分割(Image Segmentation)是電腦視覺中的一個基本任務,目的是將數字影像劃分成多個片段(或稱為「超像素」),使得具有相似性質的像素群組成同一片段。影像分割的目的是簡化或改變影像的表示形式,使其更容易被分析。以下是關於影像分割的詳細介紹:
- 目標:
- 將影像中具有相似特性(如顏色、強度、紋理)的像素分到同一區域。
- 賦予影像的每一個像素一個標籤,該標籤指示該像素屬於哪一物體或區域。
- 分割技術類型:
- 閾值分割:根據像素值的閾值將影像分成兩個或多個部分。
- 基於區域的分割:從種子點開始,將相鄰的像素添加到區域中,直到符合某些條件。
- 基於邊緣的分割:檢測影像中的邊緣(突然的強度變化)來劃分區域。
- 基於聚類的分割:例如 K-means,將像素分為擁有相似特性的多個群體。
- 神經網路和深度學習:如 U-Net, DeepLab 等模型,用於更複雜的影像分割任務。
- 應用:
- 醫學影像:例如,從 MRI 影像中識別出不同的器官或病變區域。
- 遙感:劃分地表的不同區域,如水域、森林、城市等。
- 物體識別和跟踪:識別影像中的特定物體。
- 電腦視覺任務:如場景理解、影像修復、3D 建模等。
- 評估:
- 可以使用像 Jaccard 系數(Intersection over Union, IoU)這樣的指標來評估分割模型的性能。
影像分割作為電腦視覺中的一個核心任務,在許多應用中都扮演著重要的角色,且隨著深度學習的發展,其效果和應用領域持續擴展。
使用深度學習做影像分割
深度學習和神經網路在影像去背上已取得了驚人的成果。常見的模型如下:
- U-Net 結構:
- U-Net是一種用於影像分割的卷積神經網路(CNN)結構。
- 它具有縮小(下採樣)和擴展(上採樣)的部分,使其形狀像字母“U”。
- U-Net非常適合進行像素級別的分類,如分離前景和背景。
- Mask R-CNN:
- Mask R-CNN是一種用於實例分割的方法,可以同時偵測物件並生成對應的遮罩。
- 它結合了Faster R-CNN(用於物件偵測)和一個額外的遮罩分支。
- DeepLab:
- DeepLab是一個強大的影像分割模型,它使用了空間金字塔池化和全卷積網路。
- 它能夠精確地捕捉物件的邊界,使其適合去背任務。
火紅的模型U-Net介紹
網路的介紹文章: https://ithelp.ithome.com.tw/articles/10240314
- 起源:U-Net 最初是為了醫學影像分割而設計的,特別是在數據集相對較小的情境下。
- 架構:U-Net 架構具有對稱的編碼器和解碼器部分。編碼器進行下採樣,而解碼器進行上採樣。兩者之間有跳躍連接,這意味著對應的編碼器和解碼器層之間的特徵被結合在一起,這有助於模型獲取更精確的位置信息。
去背改良版U2NET
網路相關教學文章: https://blog.csdn.net/xuzz_498100208/article/details/109912302
- 起源:U^2-Net 被設計為一個更深的網絡結構,用於進行較為複雜的影像分割和去背工作。
- 架構:U2-Net 的名稱意味著「U-Net 的 U-Net」,這是因為它的設計理念是將多個 U-Net 結構嵌套在一起。具體來說,它利用了深層和淺層的嵌套U-Net架構來捕獲多尺度特徵。U2-Net 的重要組件是其嵌套的殘差結構,這有助於模型學習從各種層次獲取的資訊。U2-Net的架構包括六個編碼器階段和五個解碼器階段,以及一個用於融合顯著地圖的模塊。它通過嵌套的U結構從不同階段有效提取多尺度特徵,從而實現了顯著對象檢測的優異性能。該方法對於克服現有骨幹網絡的限制和提高檢測性能具有重要意義。
- 特性:由於其深度和複雜的架構,U^2-Net 在某些情境下可能比 U-Net 有更好的性能,特別是在需要捕獲多尺度特徵的情境下。