混淆矩陣
混淆矩陣(Confusion Matrix)是一種評估分類模型性能的工具,特別適用於監督學習中的分類問題。它能夠幫助你了解模型在不同類別上的預測結果,並提供更多信息來評估模型的準確性。
混淆矩陣是一個方陣,其中每一行代表實際的類別,每一列代表模型預測的類別。以下是一個二元分類問題的混淆矩陣範例:
預測為正類 (Positive) | 預測為負類 (Negative) | |
---|---|---|
實際為正類 (Positive) | 真正類 (TP) | 偽負類 (FN) |
實際為負類 (Negative) | 偽正類 (FP) | 真負類 (TN) |
- TP(True Positive)是模型將正例正確預測為正例的樣本數量。
- TN(True Negative)是模型將負例正確預測為負例的樣本數量。
- FP(False Positive)是模型將負例錯誤預測為正例的樣本數量。
- FN(False Negative)是模型將正例錯誤預測為負例的樣本數量。
準確率(Accuracy)
預測正確的樣本數量與總樣本數量之比
Accuracy= (tp+tn)/(tp+fp+fn+tn)
精確率(Precision)
指的是在所有被模型預測為正類的樣本中,實際上是正類的比例。換句話說,它衡量了模型正確預測正例的能力,並且避免錯誤地將負例分類為正例
Precision= tp/(tp+fp)
召回率(Recall)
實際上被正確預測為正例的樣本數量除以所有實際正類樣本的數量
Recall = tp/(tp+fn)
F1-score
是一個綜合了精確度(Precision)和召回率(Recall)的指標,使用精確度和召回率的值計算 F1-score
Precision-Recall 曲線
用於評估二元分類器性能的一種圖表。它描述了在不同閾值下模型的精確度(Precision)和召回率(Recall)之間的折衷關係。
在 Precision-Recall 曲線上,x 軸通常表示召回率,y 軸表示精確度。理想情況下,我們希望模型能夠同時實現高精確度和高召回率,即圖表右上角的位置。但是,通常情況下,提高精確度可能會降低召回率,反之亦然。這種權衡關係取決於分類器的閾值設置,可以通過調整閾值來改變精確度和召回率之間的平衡。
ISO-F1 曲線
ISO-F1 曲線是一種評估多類別分類器性能的方法,特別用於不平衡類別數據集。ISO-F1 曲線通過在 F1-score 和類別別不平衡程度之間繪製關係圖來評估分類器的性能。
ISO-F1 曲線以不同的 F1-score 為橫軸,以類別別不平衡程度(通常以每個類別的正例數量比例或類別的預測概率分佈)為縱軸。它通過改變分類器的閾值或類別別的權重來繪製曲線,從而呈現出不同 F1-score 和類別別不平衡程度之間的平衡關係。
ISO-F1 曲線的一個常見應用是用於調整分類器的閾值,從而使得在不同類別別的不平衡情況下都能達到相對均衡的性能。透過該曲線,可以找到一個合適的閾值,以平衡不同類別別之間的性能,從而提高整體的分類器性能。