我的新書AI 職場超神助手:ChatGPT 與生成式 AI 一鍵搞定工作難題的教材投影片已製作完成
歡迎各位有需要的教師和博碩文化索取教材

準備數據集資料的方針

如何準備數據集

使用質量高的資料,如:​

  • 清晰的圖像: 圖像清晰且無模糊或雜訊。​
  • 正確的標記: 圖像被正確地標記為相應的類別。​
  • 代表性的數據: 數據集中的數據能夠代表所有可能的輸入圖像,例如不同的角度、光線、尺寸等。​

避免以下狀況:​

  • 模糊或不清晰的圖像: 圖像中有大量的模糊或雜訊。​
  • 錯誤的標記: 圖像被錯誤地標記為其他類別。​
  • 不代表性的數據: 數據集中的數據只代表一小部分可能的輸入圖像。

數據集要多少張才足夠

所需的圖片張數會視實際情況而會有所不同。例如,以撲克牌辨識為例,若數據集中只有每種牌的一種花色,或者您的數據集中可能有每種牌的多種花色,隨著分類的數量的增加,所需要的數據集規模也會隨之增加。
因此,在建立模型之前,需要先了解所要建構的數據集的結構,以確保使用的模型能夠正確地處理數據。

決定數據集大小需要考慮的因素有很多,因此無法給出一個硬性的準則。不過,通常而言,越多的訓練數據可以訓練出的模型表現越好。
然而,過多的訓練數據也可能會導致過擬合(overfitting)的問題,即模型對訓練數據表現良好,但對新數據的表現不佳。因此,在建立模型時,還需要考慮到模型的複雜度和訓練數據集的大小之間的平衡。

此外,訓練數據集的質量也很重要。如果您的數據集中有大量的標記錯誤或不清晰的圖像,那麼即使您的數據集很大,模型的表現也可能不佳。
因此,在確定數據集大小時,需要考慮許多因素,並嘗試找出最佳平衡。可以嘗試不同的數據集大小,並觀察模型的表現,以找出最佳的數據集大小。

若只是在測試模型階段,可以先嘗試使用少量的數據集來訓練模型。這可以幫助我們快速測試準備數據集的想法,並大致的了解模型的表現。
當確定了模型的結構和超參數後,可以考慮增加數據集的大小,以提高模型的準確度。因此,在建立模型時,建議先使用少量的數據集來確定模型的結構和超參數,然後再考慮增加數據集的大小。
所謂的少量,若只是測試階段,可以只需要幾百張圖像來確定模型的結構和超參數。但是,需要注意的是,模型的表現可能受到數據集質量的影響。即使數據集很小,如果數據集中的圖像質量很高,那麼模型的表現也可能很好。

可以嘗試使用以下數量的圖像:

  • 少量數據集: 例如,您可以使用 100-200 張圖像來訓練模型。
  • 中等數據集: 例如,您可以使用 1000-5000 張圖像來訓練模型。
  • 大型數據集: 例如,您可以使用 10000 張或更多的圖像來訓練模型。

數據集數量算法: 如果我們要使用 52 張圖像,並且對每張圖像進行 5 種不同的變化,則您的數據集大小就是 52*5=260 張圖像。

怎麼準備圖像資料集

在準備圖形資料時,有時我們會思考若先使用修圖軟體去背,內把要辨識的目標以外的東西都留白,是否有助於計算模型?

在實際運用上,將資料集中非目標部分留白並不會對模型的訓練有明顯的幫助。在訓練模型時,我們最好提供所有可能的資料,以便模型在訓練過程中學習到的特徵越豐富越好。同時,我們也希望模型能夠學習到那些與目標無關的資訊,因為這些資訊可能會在模型在測試時遇到類似的情況時派上用場。

有些人可能會擔心,如果資料集中包含了那些與目標無關的資訊,會不會對模型的訓練帶來干擾?實際上,當模型的訓練資料足夠多,且資料的質量足夠高時,這種情況很少會發生。在這種情況下,模型會自動學習到與目標相關的特徵,並且會忽略那些與目標無關的資訊。

訓練資料的數量的要求取決於許多因素,例如模型的複雜度、資料的質量、資料的分布等。在一般情況下,越複雜的模型、資料質量越高、資料分布越不均勻,訓練資料的數量就需要越多。

然而,要確切地知道訓練資料的數量是否足夠,通常需要通過不斷地實驗和驗證來確定。例如,我們可以對模型進行不斷地訓練並觀察它的效果,然後根據模型的表現是否達到滿意的程度來判斷是否需要增加訓練資料的數量。

然而,實際上,訓練資料的數量往往不是決定模型表現的唯一因素。在訓練模型時,我們還要考慮模型的複雜度、訓練過程中使用的技巧 (例如正則化、數據增強等)、訓練超參數的設定等因素。所以,在訓練模型時,我們需要對所有這些因素都要進行綜合考慮,才能得到最好的模型表現。

如何選擇具代表性的資料集

  • 篩選條件應該基於數據品質:例如,如果有一些圖片的解析度很低,或者圖片中的物體模糊不清,那麼這些圖片可能對訓練準確度沒有太大的幫助,因此可以考慮刪除這些圖片。
  • 篩選方針應該基於訓練目標:例如,如果你的訓練目標是辨識不同種類的動物,那麼你可以考慮保留足夠多的各種動物的圖片,並且刪除一些與訓練目標無關的圖片 (例如,建築物、景觀等)。
  • 篩選條件和方針應該基於數據平衡:例如,如果你的數據集中有一些類別的圖片數量遠大於其他類別的圖片數量,那麼這可能會影響訓練準確度。因此,你可以考慮刪除一些數量較多的類別的圖片,以平衡數據。

梗圖分享


17年資歷女工程師,專精於動畫、影像辨識以及即時串流程式開發。經常組織活動,邀請優秀的女性分享她們的技術專長,並在眾多場合分享自己的技術知識,也活躍於非營利組織,辦理活動來支持特殊兒及其家庭。期待用技術改變世界。

如果你認同我或想支持我的努力,歡迎請我喝一杯咖啡!讓我更有動力分享知識!