拆分相黏的正方形 – Claire's Blog

原始圖片

在寫純OpenCV的圖像辨識上，最困難的是當要找尋的目標的邊界因為模糊或相黏，而無法抓出正確的邊界的狀況
因為一般使用OpenCV做圖像辨識，我們都會需要先抓到例如說畫面中的某種色塊、再找尋某種符合某條件的形狀之類的
例如以修圖軟體而言，可能會需要先抓取膚色，然後轉換膚色的灰度階層取得面部的高低起伏，再根據灰度階層去抓取符合某種形狀的高低(如鼻子)或顏色差(如嘴巴、眼睛)

也因此，抓取正確的形狀在純粹的圖像辨識(沒有機器學習)的狀況下非常重要，而拆分相黏的形狀(如手放在臉前面)，仍然要正確的辨識目標物件，也成了圖像辨識的一大挑戰
關於這一系列的其他文章，請見:

以下為這次我們要挑戰的目標，就是將這兩個黏在一起的正方形拆分為兩個正方形

解決問題的思考方向

首先我先參考官網的分水嶺演算法介紹:Image Segmentation with Watershed Algorithm
這邊的狀況和我們的需求很類似，都是將相黏的物件拆分開來

下面是在stackoverflow裡一位大大分享的他使用分水嶺演算法的範例程式:

from scipy.ndimage import label
import cv2
import numpy
def segment_on_dt(img):
    dt = cv2.distanceTransform(img, cv2.DIST_L2, 3) # L2 norm, 3x3 mask
    dt = ((dt - dt.min()) / (dt.max() - dt.min()) * 255).astype(numpy.uint8)
    dt = cv2.threshold(dt, 100, 255, cv2.THRESH_BINARY)[1]
    lbl, ncc = label(dt)

    lbl[img == 0] = lbl.max() + 1
    lbl = lbl.astype(numpy.int32)
    cv2.watershed(cv2.cvtColor(img, cv2.COLOR_GRAY2BGR), lbl)
    lbl[lbl == -1] = 0

在這篇文章裡有幾個函數需要我們去理解:

cv.distanceTransform

OpenCV的distanceTransform是一個圖像處理功能，可以計算圖像中每個像素到最近的零值像素之間的歐幾里德距離。distanceTransform功能可以在圖像分割、形狀檢測、物體識別等應用中使用。
在OpenCV中，distanceTransform有三種不同的實現方式：cv2.DIST_L1、cv2.DIST_L2和cv2.DIST_C。cv2.DIST_L1使用曼哈頓距離，cv2.DIST_L2使用歐幾里德距離，而cv2.DIST_C使用切比雪夫距離。
使用distanceTransform功能需要先將圖像二值化，然後計算圖像中每個像素到最近的零值像素之間的距離。distanceTransform返回的結果是一個浮點型的圖像，每個像素值表示該像素到最近的零值像素之間的距離。

以下是distanceTransform的Python程式碼示例：

import cv2
import numpy as np

img = cv2.imread('image.jpg', 0)
ret,thresh = cv2.threshold(img,127,255,0)
dist_transform = cv2.distanceTransform(thresh,cv2.DIST_L2,5)

以下為對上圖做cv.distanceTransform的結果

cv.threshold

將距離變換圖像dt進行歸一化處理，將其轉換成0-255之間的整數型圖像，並使用threshold函數將其二值化，生成一個二值化圖像dt。這個二值化圖像dt中的像素值只有0和255兩種，用來表示圖像中物體和背景之間的分界線。
在這邊我使用了0.9*dist_transform.max()來做為閥值，確認兩個方形之間可以不相連

ret, sure_fg = cv.threshold(dist_transform,0.9*dist_transform.max(),255,0)

結果如下:

cv2.connectedComponents

在圖像處理和計算機視覺中，常常需要將圖像分割成多個不同的區域，然後對每個區域進行不同的分析和處理。圖像分割的第一步就是對圖像進行連通區域標記，將相連的像素點標記為同一個區域，以便後續處理。

程式碼使用OpenCV中的label函數對二值化圖像dt進行連通區域標記，生成一個標記圖像lbl和連通區域數量ncc。標記圖像lbl中的每個像素點都標記了其所屬的連通區域編號。

OpenCV中提供了幾個函數可以實現連通區域標記，其中最常用的是cv2.connectedComponents和cv2.connectedComponentsWithStats函數，這些函數會將每個連通區域分配一個唯一的標籤（編號），並返回每個區域的一些統計信息，如面積、重心等。

scipy.ndimage.label和cv2.connectedComponents都是對二值化圖像中的連通區域進行標記的函數，但在實現和用法上有所不同。

scipy.ndimage.label是Scipy中的一個函數，用於對二值化圖像進行連通區域標記，它的使用方式如下：

from scipy.ndimage import label
labels, num_features = label(binary_image)

其中，binary_image是二值化的圖像，labels是與原始圖像大小相同的數組，其中每個像素點都標記了其所屬的連通區域編號，num_features是圖像中連通區域的數量。

cv2.connectedComponents是OpenCV中的一個函數，用於對二值化圖像進行連通區域標記，它的使用方式如下：

num_labels, labels = cv2.connectedComponents(binary_image)

binary_image是二值化的圖像，num_labels是圖像中連通區域的數量，labels是與原始圖像大小相同的數組，其中每個像素點都標記了其所屬的連通區域編號。

兩個函數的返回值不同，scipy.ndimage.label返回的是每個像素點所屬的連通區域編號，而cv2.connectedComponents返回的是每個連通區域的編號。另外，cv2.connectedComponents還可以通過修改設置參數來指定標記的種類，例如指定為4或8連通等。

cv2.watershed

程式碼將標記圖像lbl轉換成整數型數組，並使用OpenCV中的watershed函數進行分水嶺分割，生成一個分割圖像lbl。分割圖像lbl中的像素點表示原始圖像中的每個像素點所屬的區域編號。

cv2.watershed() 是 OpenCV 中的一種分割算法，通常用於分割圖像中的目標物體。

在使用該函數時，需要先對輸入的圖像進行預處理，以便生成一組用於分割的初始標記。這通常可以通過在原始圖像中標記前景和背景像素來實現。然後，可以將這些標記傳遞給 cv2.watershed() 函數進行分割。該函數會根據標記和圖像的梯度信息來確定目標物體的邊界，將其分割為不同的區域。

函數的語法如下：

markers = cv2.watershed(img, markers)

img 是輸入圖像，markers 是與輸入圖像相同大小的標記矩陣。在函數執行完畢後，markers 矩陣中每個像素的值將被設置為其所屬的分割區域的標記值。
需要注意的是，cv2.watershed() 函數是一個原地操作，即它會修改傳遞給它的標記矩陣，而不是返回一個新的矩陣。因此，在調用該函數之前，最好複製一份原始標記矩陣以備份。
cv2.watershed() 函數是一種基於圖像分水嶺的分割算法，它可以對灰度圖像進行分割，將圖像中的前景和背景分開。該算法的分割結果是基於圖像梯度的變化來進行分割的，因此不能直接實現直線分割。

# 應用watershed算法進行圖像分割
    markers = cv2.watershed(cv2.cvtColor(img, cv2.COLOR_GRAY2BGR), markers)
    # 根據標記將圖像分成不同的部分
    img[markers == -1] = 0

結果如下:

完整用法範例

import cv2
import numpy as np

# 創建一個黑白圖像
img = np.zeros((500, 500), dtype=np.uint8)
cv2.rectangle(img, (100, 100), (200, 200), 255, -1)
cv2.rectangle(img, (150, 150), (250, 250), 255, -1)

# 求出距離變換圖像
dt = cv2.distanceTransform(img, cv2.DIST_L2, 3)
dt = ((dt - dt.min()) / (dt.max() - dt.min()) * 255).astype(np.uint8)
# 閾值分割得到前景和背景
ret, thresh = cv2.threshold(dt, 0.8*dt.max(),255,0)
thresh = cv2.dilate(thresh, None, iterations=4)
unknown = cv2.subtract(img,thresh)
# 得到標記圖像，每個區域用不同的正整數標記
ret, markers = cv2.connectedComponents(thresh)
markers = markers+1
markers[unknown==255] = 0
# 應用watershed算法進行圖像分割
markers = cv2.watershed(cv2.cvtColor(img, cv2.COLOR_GRAY2BGR), markers)
# 根據標記將圖像分成不同的部分
img[markers == -1] = 0

# 顯示結果
cv2.imshow("img", img)
cv2.waitKey(0)
cv2.destroyAllWindows()