2023 年 8 月 – 第 2 頁

Machine Learning, Technology Research IoU, mAP, Tensorboard, YOLOv8, 召回率, 模型訓練, 深度學習, 物件偵測, 精確率, 遷移學習

YOLOv8模型訓練：深入解析性能指標與優化策略

Post By Claire Chang 2023-08-16 下午 7:29

在物件偵測領域，YOLOv8作為最新一代的深度學習模型，以其卓越的性能和效率贏得了廣泛關注。本文將深入探討YOLOv8的模型訓練過程，解析關鍵性能指標，並分享優化策略，幫助您更好地掌握這一強大工具。

遷移學習：YOLOv8模型訓練的捷徑

在開始YOLOv8模型訓練之前，我們首先需要了解遷移學習的重要性。遷移學習允許我們利用預訓練模型的知識，大大縮短訓練時間並提高模型性能。對於YOLOv8，我們可以從官方提供的預訓練模型開始，根據自己的數據集進行微調。

from ultralytics import YOLO

# 載入預訓練的YOLOv8模型
model = YOLO('yolov8n.pt')

# 使用自定義數據集進行訓練
results = model.train(data='custom_dataset.yaml', epochs=100, imgsz=640)

關鍵指標：解讀YOLOv8的性能

在物件偵測任務中，幾個關鍵指標對於評估模型性能至關重要：

IoU (Intersection over Union)：
IoU衡量預測邊界框與真實邊界框的重疊程度，是評估物件偵測準確性的基礎指標。
mAP (mean Average Precision)：
mAP綜合考慮了精確率和召回率，是物件偵測模型整體性能的重要指標。
精確率 (Precision) 和召回率 (Recall)：
這兩個指標分別反映了模型預測的準確性和完整性，是評估YOLOv8性能的核心指標。

Tensorboard：視覺化YOLOv8訓練過程

為了更直觀地監控YOLOv8模型的訓練過程，我們可以使用Tensorboard這一強大的視覺化工具。Tensorboard能夠實時展示訓練損失、驗證指標等關鍵數據，幫助我們及時調整訓練策略。

# 在訓練命令中添加Tensorboard支持
results = model.train(data='custom_dataset.yaml', epochs=100, imgsz=640, project='YOLOv8_training', name='experiment1')

訓練自定義的YOLOv8模型

以下為官網的一個範例程式

from ultralytics import YOLO

# Load a model
model = YOLO('yolov8n.yaml')  # build a new model from YAML
model = YOLO('yolov8n.pt')  # load a pretrained model (recommended for training)
model = YOLO('yolov8n.yaml').load('yolov8n.pt')  # build from YAML and transfer weights

# Train the model
results = model.train(data='coco128.yaml', epochs=100, imgsz=640)

範例中三種載入方式的比較

model = YOLO(‘yolov8n.yaml’)：
這段代碼使用給定的 YAML 配置文件構建一個新的 YOLO 模型。 YAML 配置文件包含了有關模型架構、層設置、超參數等的信息。通過提供 YAML 文件的路徑，可以創建一個全新的 YOLO 模型。(yaml檔案位於: ultralytics\cfg\models\v8)
model = YOLO(‘yolov8n.pt’)：
這段代碼加載一個預訓練的 YOLO 模型，該模型以 PyTorch 的 .pt 文件格式保存。預訓練模型已經在某個數據集上進行了訓練，並且包含了在該數據集上學到的權重。這個過程稱為遷移學習，它可以加快在新數據集上訓練模型的收斂速度，同時保留之前任務的特徵提取能力。
model = YOLO(‘yolov8n.yaml’).load(‘yolov8n.pt’)：
這段代碼首先使用給定的 YAML 配置文件構建一個 YOLO 模型，然後從預訓練的 .pt 文件中加載權重，將權重遷移到新構建的模型中。這使您可以根據自己的需求創建模型結構，然後將預訓練模型的權重用於該結構。這種方法允許您根據不同的目標任務進行微調或擴展。

YOLOv8 模型的每個類別中有五個模型

YOLOv8n

YOLOv8s

YOLOv8m

YOLOv8l

YOLOv8x

YOLOv8 Nano是最快和最小的，而YOLOv8 Extra Large（YOLOv8x）是最準確但最慢的

YOLOv8 使用了以下預訓練模型：

在 COCO 檢測數據集上訓練的對象檢測，圖像分辨率為 640。
在 COCO 分割數據集上訓練的實例分割，圖像分辨率為 640。
在 ImageNet 數據集上預訓練的圖像分類模型，圖像分辨率為 224。

訓練指標分析

Intersection over Union指標

IoU（Intersection over Union）是一個用於評估目標檢測和分割任務的常用指標。它主要用於衡量預測的目標與實際目標之間的重疊程度。在機器學習和計算機視覺領域中，IoU通常用於衡量模型的預測準確度，特別是在處理像目標檢測、物體定位和分割等任務時。

IoU的計算方式是將預測的目標區域（通常是矩形框或分割區域）與實際目標區域的交集面積除以它們的聯集面積。公式如下：

其中，交集是預測區域和實際區域的重疊部分，聯集是預測區域和實際區域的整體合併部分。

在目標檢測中，當模型預測的目標框與實際目標框之間的IoU值越高，表示模型的預測越準確。通常，當IoU超過一個預定的閾值（例如0.5或0.7）時，可以將該預測視為成功檢測。這種指標可以用於計算Precision-Recall曲線以及平均精度（Average Precision）等性能指標。

在分割任務中，IoU用於衡量模型預測的分割區域與實際分割區域之間的相似度。當分割區域的IoU越高，表示模型的分割結果越準確。

mAP50(B)

mAP50(B) 是指”Mean Average Precision at IoU 0.50 for Large Objects”，意思是在IoU（Intersection over Union，重疊度）為0.50 的情況下，針對較大目標計算的平均精度（AP）值的均值。 mAP 是模型在不同類別上的平均精度值，而 mAP50(B) 是針對較大目標計算的平均精度值。

mAP50-95(B)

mAP50-95(B) 是指 “Mean Average Precision across IoU 0.50 to 0.95 for Large Objects”，意思是在 IoU 從 0.50 到 0.95 範圍內，針對較大目標計算的平均精度值的均值。這個指標更全面地評估了模型在不同重疊度下的性能。

precision(B)

precision(B) 是針對較大目標計算的精確率，即模型在預測中有多少是正確的，相對於所有預測中的正確和錯誤。它是衡量模型預測的準確性的指標之一。

recall(B)

recall(B) 是針對較大目標計算的召回率，即模型正確預測的目標數與實際目標數之比。它表示模型能夠檢測到多少實際目標。召回率是衡量模型識別能力的指標之一。

dfl_loss（Detection Focal Loss）

dfl_loss 是一種在YOLO目標檢測中引入的特殊損失函數，它是基於焦點損失（Focal Loss）的改進。焦點損失的主要目標是應對樣本不平衡問題，即正負樣本比例嚴重失衡。在目標檢測中，負樣本（即不含目標的區域）遠遠多於正樣本（含有目標的區域）。 dfl_loss 試圖通過放大難以分類的正樣本的損失，來應對這種不平衡，從而使模型更關注難以識別的目標。

box_loss（Box Regression Loss）

這是用於衡量預測框位置的損失函數。在目標檢測中，模型不僅要預測目標的類別，還要預測框的位置，即邊界框的中心坐標、寬度和高度。 box_loss 的目標是使模型的位置預測更接近真實目標框的位置。這有助於確保檢測到的框與真實目標框的位置相匹配，從而提高目標定位的準確性。

cls_loss（Class Classification Loss）

cls_loss 用於分類目標的類別。在YOLO中，每個檢測框需要預測它所屬的目標類別。 cls_loss 的作用是確保模型的類別預測盡可能準確。這對於準確地將檢測框與正確的目標類別關聯非常重要，從而實現了目標分類的準確性。

我的tensorborad訓練狀況

這邊深藍色的是使用YOLOv8m.pt做預訓練模型、淺藍色的是使用YOLOv8n，深藍色的跑了2個多小時(100次)，淺藍色的因為懶得跑完只做了60幾次。橘色的是別人訓練的歷程。

為什麼自己訓練的結果即使所有資料集都一樣卻有不同的狀況，需要進一步去了解。

Machine Learning, PyTorch, Technology Research

模型介紹

GitHub位置: https://github.com/ultralytics/ultralytics

官方網站: https://ultralytics.com/

YOLOv8 最初由 Ultralytics 公司的開發人員開發和發布，旨在在目標檢測任務中提供高性能和高效率的解決方案。基於深度學習和計算機視覺領域的前沿進步而構建，在速度和準確性方面提供無與倫比的性能。其流線型設計使其適用於各種應用程序，並可輕鬆適應從邊緣設備到雲 API 的不同硬件平台。

與之前的 YOLO 版本相比，YOLOv8 引入了一些新的設計思想和技術，以提高模型的精度和速度。它在模型結構、數據增強、網絡設計等方面進行了優化，使得在目標檢測任務中取得了出色的結果。 YOLOv8 不僅可以在通用的目標檢測任務中表現良好，還可以應用於各種應用領域，如自動駕駛、工業檢測、物體識別等。

模型安裝

官方的教學提供了非常明確的指導: https://docs.ultralytics.com/quickstart/

在這邊我選擇了使用pip安裝，只需要打下這一行就可以了

pip install ultralytics

用command line執行的方式如下

yolo predict model=yolov8n.pt source='https://ultralytics.com/images/bus.jpg'

用python執行偵測的方式

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n.yaml")  # build a new model from scratch
model = YOLO("yolov8n.pt")  # load a pretrained model (recommended for training)

# Use the model
model.train(data="coco128.yaml", epochs=3)  # train the model
metrics = model.val()  # evaluate model performance on the validation set
results = model("https://ultralytics.com/images/bus.jpg")  # predict on an image
path = model.export(format="onnx")  # export the model to ONNX format

官方建議使用的相關工具

建立一個物件偵測模型，需要做標註、影像增強、修改、訓練、佈署，以及將模型整合至使用端的程式。對於這些流程，Yolo提供了很完整的生態鏈去實現這些步驟

支持的任務

自己建立模型

下面是官方網站內一個包含建模、預測、輸出模型的程式碼範例

from ultralytics import YOLO

# Create a new YOLO model from scratch
model = YOLO('yolov8n.yaml')

# Load a pretrained YOLO model (recommended for training)
model = YOLO('yolov8n.pt')

# Train the model using the 'coco128.yaml' dataset for 3 epochs
results = model.train(data='coco128.yaml', epochs=3)

# Evaluate the model's performance on the validation set
results = model.val()

# Perform object detection on an image using the model
results = model('https://ultralytics.com/images/bus.jpg')

# Export the model to ONNX format
success = model.export(format='onnx')

我自己嘗試使用原有的模型訓練新的資料，在訓練過程中，會出現下面這樣的模型訊息

上面那些數值的解釋如下

Epoch (迭代輪數): 這是訓練過程中的迭代次數，每次迭代會處理數據集中的一批樣本。
GPU_mem (顯存佔用): 顯存是指圖形處理單元（GPU）上的內存，該數字顯示在當前迭代中 GPU 使用了多少顯存。
box_loss (框回歸損失): 這是目標檢測模型訓練中的一個損失項，用於優化檢測框的位置。
cls_loss (分類損失): 也是目標檢測模型訓練中的損失項之一，用於優化目標的分類預測。
dfl_loss (變換損失): 這可能是一種針對目標檢測中檢測框位置變換的損失。
Instances (實例數): 在每次迭代中，訓練過程處理的目標實例數量。
Size (尺寸): 可能是指輸入圖像的尺寸。
Class (類別): 指的是不同的目標類別。
Images (圖像數): 在評估模型性能時，所用圖像的數量。
Box (框)、P (精確率)、R (召回率): 這些是用於評估目標檢測模型性能的指標。精確率衡量模型在預測為正類的情況下有多少是正確的，召回率衡量模型在所有正類樣本中有多少被正確檢測出來。
mAP50、mAP50-95 (平均精確率): 這是在不同閾值下計算的平均精確率。 mAP50 表示在 50% 的 IoU 閾值下的平均精確率，而 mAP50-95 表示在 50% 到 95% 的 IoU 閾值範圍內的平均精確率。

以上圖而言，在第23輪的訓練其精度為48.4%，F1召回率為59%

處理圖片大小的不一致

YOLO原本建模時所使用的是COCO的資料集，在這個資料集裡面，圖片的長、寬皆為640px，但是實際上我們應用上所使用的圖片很可能並不是640×640的尺寸，這時候就要先對圖片做處理。

如果只是要做預測，可以直接使用resize_with_pad來對圖片做縮放，這個函數可以保持長寬比相同且不失真，將圖像大小調整為目標寬度和高度。如果目標尺寸與圖像尺寸不匹配，則會調整圖像大小，然後用零填充以匹配請求的尺寸。

但對於訓練，您還需要相應地調整邊界框的大小和填充邊界框，這並非易事。
這是如何完成此操作的示例https://nbviewer.jupyter.org/github/aleju/imgaug-doc/blob/master/notebooks/B02%20-%20Augment%20Bounding%20Boxes.ipynb

以下為幾個主要手法:

調整輸入尺寸：你可以將攝像機圖像調整為與 YOLO 模型訓練時使用的正方形尺寸相匹配。這可能會導致圖像在寬度或高度上出現一些留白，但能夠與模型兼容。
圖像裁剪：將攝像機圖像進行裁剪，以適應 YOLO 模型所需的正方形尺寸。你可以從圖像的中心或其他感興趣的區域進行裁剪，以確保包含重要的目標信息。
填充：如果圖像的長寬比與模型所需的正方形尺寸不匹配，你可以在圖像的較短邊或較長邊添加填充，使其達到正方形尺寸。填充可以使用一些背景顏色或內容進行填充，以保持圖像比例。
訓練新模型：如果你的攝像機圖像尺寸與標準的 YOLO 輸入尺寸差異較大，並且以上方法不適用，你可能需要考慮訓練一個新的 YOLO 模型，以適應你的攝像機圖像尺寸。這樣可以確保模型在不同尺寸的圖像上都有良好的性能。

無論你選擇哪種方法，都需要注意到調整輸入尺寸可能會對模型性能產生影響，特別是在目標檢測任務中。你可能需要在實際場景中進行測試和調整，以找到最適合你應用的方法。

Machine Learning, PyTorch

環境架設

相關教學文章: https://github.com/pytorch/pytorch

首先，PyTorch需要 Python 3.8.1以上的環境，先安裝Anaconda，接著設定一個虛擬環境使用py3.8.1

conda create -n aia16 python=3.8.1
conda activate aia16

切換到新創建的環境之後，就依照下面的步驟下載PyTorch

git clone --recursive https://github.com/pytorch/pytorch
cd pytorch
# if you are updating an existing checkout
git submodule sync
git submodule update --init --recursive

編譯PyTorch

當你運行python setup.py develop來安裝PyTorch（或任何其他Python套件）時，這個命令的目的是在”開發模式”下安裝該套件。這意味著源代碼的更改會立即反映到Python環境中，無需重新安裝。

但是對於像PyTorch這樣的大型項目，這個過程可能會變得相對緩慢。如果你只是想試用PyTorch而不是開發它，那麼通常建議直接從官方渠道安裝預編譯的版本，這樣會快得多。（可以跳過此步驟）

安裝編譯所需工具

conda install cmake ninja
# Run this command from the PyTorch directory after cloning the source code using the “Get the PyTorch Source“ section below
pip install -r requirements.txt
# Add this package on intel x86 processor machines only
conda install mkl mkl-include
# Add these packages if torch.distributed is needed
conda install pkg-config libuv

開始編譯

python3 setup.py develop

直接安裝PyTorch

使用預編譯的二進制檔案安裝PyTorch是相對簡單的。以下是使用pip或conda安裝PyTorch的方法：

使用pip安裝

pip install torch torchvision

使用conda安裝

conda install pytorch torchvision -c pytorch

下載第一個測試專案

https://github.com/pytorch/ios-demo-app

首先要先安裝依賴管理套件cocoapods，安裝指令如下：

sudo gem install cocoapods

cocoapods安裝失敗解決方法

https://stackoverflow.com/questions/69460048/unable-to-install-cocoapods-in-macos-monterey-version-12-0-beta-xcode-13-013a

用homebrew安裝

brew install cocoapods

安裝依賴項

先把目錄切到有PodFile的位置，然後下指令

pod install

Machine Learning, TensorFlow

官方教程

教程網址: https://github.com/tensorflow/tfjs-models/tree/master/coco-ssd

目標檢測模型，旨在定位和識別單個圖像中的多個目標。

該模型是 COCO-SSD 模型的 TensorFlow.js 移植。有關 Tensorflow 對象檢測 API 的更多信息，請查看 tensorflow/object_detection中的自述文件。

該模型檢測 COCO 數據集中定義的對象，這是一個大規模的對象檢測、分割和字幕數據集。您可以在這裡找到更多信息。該模型能夠檢測80 類物體。（SSD 代表單次多盒檢測）。

此 TensorFlow.js 模型不需要您了解機器學習。它可以將輸入作為任何基於瀏覽器的圖像元素（例如<img>、<video>、<canvas> 元素），並返回帶有類名稱和置信度的邊界框數組。

<!-- Load TensorFlow.js. This is required to use coco-ssd model. -->
<script src="https://cdn.jsdelivr.net/npm/@tensorflow/tfjs"> </script>
<!-- Load the coco-ssd model. -->
<script src="https://cdn.jsdelivr.net/npm/@tensorflow-models/coco-ssd"> </script>

<!-- Replace this with your image. Make sure CORS settings allow reading the image! -->
<img id="img" src="cat.jpg"/>

<!-- Place your code in the script tag below. You can also use an external .js file -->
<script>
  // Notice there is no 'import' statement. 'cocoSsd' and 'tf' is
  // available on the index-page because of the script tag above.

  const img = document.getElementById('img');

  // Load the model.
  cocoSsd.load().then(model => {
    // detect objects in the image.
    model.detect(img).then(predictions => {
      console.log('Predictions: ', predictions);
    });
  });
</script>

讀取攝像機

以下為一個簡單讀取攝像機並且作物件偵測的程式範例

<!doctype html>
<html>

<head>
  <meta charset="utf-8">
  <title>Test</title>
  <script src="https://cdn.jsdelivr.net/npm/@tensorflow/tfjs"> </script>
  <script src="https://cdn.jsdelivr.net/npm/@tensorflow-models/coco-ssd"> </script>
</head>

<body>
  <div class="select">
    <label for="videoSource">Video source: </label><select id="videoSource"></select>
  </div>
  <button id="showVideo">Open camera</button>
  <br />
  <!-- Video element to capture camera input -->
  <video id="video" autoplay playsinline style="position: absolute;z-index: -999;"></video><canvas id="canvas"
    width="100%"></canvas>
  <div id="message"></div>
  <script>
    const video = document.getElementById('video');
    const canvas = document.getElementById('canvas');
    const ctx = canvas.getContext('2d');
    document.querySelector('#showVideo').addEventListener('click', e => init(e));
    const videoSelect = document.querySelector('select#videoSource');
    function gotDevices(deviceInfos) {
      console.log(deviceInfos)
      deviceInfos.forEach(deviceInfo => {
        if (deviceInfo.kind == "videoinput") {
          const option = document.createElement('option');
          option.value = deviceInfo.deviceId;
          option.text = deviceInfo.label || `camera ${videoSelect.length + 1}`;
          videoSelect.appendChild(option);
        }
      });
    }
    function gotStream(stream) {
      window.stream = stream; // make stream available to console
      videoElement.srcObject = stream;
      // Refresh button list in case labels have become available
      return navigator.mediaDevices.enumerateDevices();
    }
    window.onload = () => {

      navigator.mediaDevices.enumerateDevices().then(gotDevices).catch(handleError);
      const constraints = {
        audio: { deviceId: audioSource ? { exact: audioSource } : undefined },
        video: { deviceId: videoSource ? { exact: videoSource } : undefined }
      };
      navigator.mediaDevices.getUserMedia(constraints).then(gotStream).then(gotDevices).catch(handleError);
    }


    function getRandomColor() {
      const randomColor = Math.floor(Math.random() * 16777215).toString(16);
      return "#" + ("000000" + randomColor).slice(-6);
    }
    function handleSuccess(stream) {
      const videoTracks = stream.getVideoTracks();
      var predictions = [];
      video.srcObject = stream;
      // When the video is playing, draw it on the canvas
      video.addEventListener('play', () => {
        canvas.width = video.videoWidth;
        canvas.height = video.videoHeight;
        // Continuously draw the video frames on the canvas
        function drawFrame() {
          // Draw the video frame on the canvas
          ctx.drawImage(video, 0, 0, canvas.width, canvas.height);
          const scaleX = canvas.width / video.videoWidth;
          const scaleY = canvas.height / video.videoHeight;

          // Draw the bounding boxes on the canvas
          predictions.forEach(prediction => {
            const x = prediction.bbox[0] * scaleX;
            const y = prediction.bbox[1] * scaleY;
            const width = prediction.bbox[2] * scaleX;
            const height = prediction.bbox[3] * scaleY;

            ctx.strokeStyle = 'blue';
            ctx.lineWidth = 2;
            ctx.strokeRect(x, y, width, height);

            ctx.fillStyle = 'blue';
            ctx.font = '18px Arial';
            ctx.fillText(prediction.class, x, y);
          });
          // Call the drawFrame function again to continuously update the canvas
          requestAnimationFrame(drawFrame);
        }

        // Start drawing video frames
        drawFrame();
        // Load the model.
        cocoSsd.load().then(model => {
          function detectFrame() {
            // detect objects in the image.
            model.detect(video).then(preds => {
              predictions = preds
              setTimeout(detectFrame, 100);
            });
          }
          detectFrame()
        });
      });
    }

    function handleError(error) {
      if (error.name === 'OverconstrainedError') {
        const v = constraints.video;
        alert(`The resolution ${v.width.exact}x${v.height.exact} px is not supported by your device.`);
      } else if (error.name === 'NotAllowedError') {
        alert('Permissions have not been granted to use your camera and ' +
          'microphone, you need to allow the page access to your devices in ' +
          'order for the demo to work.');
      }
      alert(`getUserMedia error: ${error.name}`, error);
    }

    async function init(e) {
      try {
        const stream = await navigator.mediaDevices.getUserMedia({ audio: false, video: { deviceId: videoSelect.value ? { exact: videoSelect.value } : undefined } });
        handleSuccess(stream);
        e.target.disabled = true;
      } catch (e) {
        handleError(e);
      }
    }
  </script>
</body>

</html>

執行成果

以下為範例執行程式: https://claire-chang.com/wp-content/uploads/2023/08/sample.html

要開啟鏡頭權限需要至網站設定開啟權限

Cloud

Modern data architecture on AWS

Post By Claire Chang 2023-08-02 下午 6:14

為什麼會需要現代資料架構

數據量正以前所未有的速度增長，從 TB 級激增到 PB 級，有時甚至達到 EB 級。傳統的本地數據分析方法無法處理這些數據量，因為它們的擴展性不夠好並且成本太高。許多公司正在從各個孤島獲取所有數據，並將所有數據聚合到一個位置（許多人稱之為數據湖），以便直接在這些數據之上進行分析和機器學習。有時，這些公司將其他數據存儲在專門構建的數據存儲中，以分析結構化和非結構化數據并快速獲得見解。這種數據移動可以是“由內而外”、“由外而內”、“圍繞周邊”或“跨區域共享”，因為數據具有重力。

什麼是數據湖？

數據湖是一個集中式存儲庫，允許您存儲任意規模的所有結構化和非結構化數據。您可以按原樣存儲數據，而無需首先構建數據，並運行不同類型的分析 – 從儀表板和可視化到大數據處理、實時分析和機器學習，以指導更好的決策。

含括各種不同類型的存儲

在數據湖架構中，資料庫通常用於存儲結構化數據或半結構化數據，這些數據可能來自企業應用系統、交易數據、用戶資訊等。資料庫提供了結構化的數據儲存和查詢功能，並且支援事務處理，這使得它適合存儲需要高度結構化的數據。

除了資料庫，數據湖還可以包括其他類型的存儲，如：

物件存儲：用於存儲非結構化或半結構化的數據，如影片、音頻、圖像、日誌文件等。物件存儲通常以對象的形式存儲數據，每個對象都有一個唯一的鍵（Key）標識。
分佈式文件系統：用於存儲大型文件和文件集，如文檔、報告、配置文件等。分佈式文件系統可以提供高可用性和可擴展性的存儲。
流式數據存儲：用於存儲即時生成的數據流，如傳感器數據、日誌數據等。流式數據存儲通常支援高吞吐量和低延遲的數據寫入和讀取。
其他存儲服務：根據需求，數據湖還可以包括其他存儲服務，如物聯網（IoT）數據庫、時序數據庫等。

總的來說，數據湖是一個集中式的、可擴展的數據存儲和管理架構，它可以包括多種不同類型的存儲，以容納不同格式和來源的數據。資料庫是數據湖中的一種重要存儲形式，但不是唯一的選擇，而根據應用需求，可以根據需要選擇不同的存儲技術和服務。

AWS 數據湖的基本支柱

數據湖基礎：Amazon S3、AWS Lake Formation、Amazon Athena、Amazon EMR 和 AWS Glue

數據湖通常用於存儲非結構化和半結構化數據，例如影片、音頻、圖像、日誌文件等。而關聯型數據庫（包括Amazon RDS和Amazon Aurora）通常用於存儲結構化數據，這些數據具有固定的模式和結構。

由於數據湖和關聯型數據庫的用途和數據類型有所不同，所以在數據湖架構圖中通常不會將關聯型數據庫包含在內。在數據湖架構中，關聯型數據庫通常用於存儲和管理已經轉換成結構化數據的部分，例如從數據湖中提取的特定數據子集，這些數據可以被用於更嚴格的查詢和分析需求。

Cloud, K8S

軟件定義存儲（Software Defined Storage，SDS）介紹

Post By Claire Chang 2023-08-02 下午 5:45

甚麼是SDS

軟件定義存儲（Software Defined Storage，SDS）是一種存儲技術的方法論，它通過軟件層面的控制和管理來處理存儲資源，使得存儲系統更加靈活、可擴展和易於管理。傳統的存儲系統通常使用專用的硬體設備和控制器來管理數據存儲，而軟件定義存儲採用軟件定義的方法，將存儲處理功能抽象出來，從而使得存儲資源可以根據需要進行分配和管理。

SDS的主要特色

抽象化：軟件定義存儲將存儲資源的物理特性與控制功能進行解耦，使得存儲資源的管理和配置可以在軟件層面完成，而不依賴於特定的硬體設備。
集中管理：軟件定義存儲可以通過集中式的管理界面來控制和監控存儲系統，這使得管理人員可以更方便地進行配置、擴展和故障排除。
彈性擴展：由於軟件定義存儲可以根據需要進行動態配置和管理，因此可以輕鬆地擴展存儲容量和性能，以適應不斷增長的數據需求。
自動優化：軟件定義存儲通常具有自我優化的功能，它可以根據數據使用情況和需求來自動調整存儲策略，以提供最佳的性能和效率。
開放性：軟件定義存儲通常基於開放標準和API，這使得它可以與多種硬體設備和存儲平台兼容，並且支援多種存儲協議。

SDS的工作原理

借助軟件定義的存儲，應用程序可以動態配置所需的容量、性能和保護的精確組合——不多也不少。SDS 為存儲帶來了服務器虛擬化為計算帶來的簡單性、效率和成本節約。它允許您消除低效的專用硬件，並使用更靈活、透明和自動化的系統。此外，該存儲解決方案可與現有存儲解決方案和雲配合使用。

SDS軟件通過虛擬數據平面對底層存儲進行抽象；這使得虛擬機（和應用程序）成為存儲配置和管理的基本單元。

通過在應用程序和可用資源之間創建靈活的分離，普及的虛擬機管理程序可以平衡應用程序所需的所有 IT 資源（計算、內存、存儲和網絡）。

SDS與Persistent Volumes

SDS（軟件定義存儲）和Kubernetes中的Persistent Volumes（持久化存儲卷）是相關的概念，它們都涉及到在容器化環境中對存儲資源的管理。

Kubernetes是一個用於容器化應用程序管理和部署的開源平台，而Persistent Volumes（PV）是Kubernetes中用於持久化存儲的抽象層。PV允許將持久化存儲資源（例如Amazon EBS、Google Persistent Disk、NFS、Ceph等）與Kubernetes集群中的Pod相關聯，從而實現容器應用程序的持久化數據存儲。

Kubernetes的Persistent Volumes（PV）提供了對多種存儲技術的抽象，因此你可以使用多種技術來實現PV。以下是一些常見的PV實現技術：

主機路徑（HostPath）：這是一種簡單的PV實現方式，將宿主機上的目錄掛載為PV。但需要注意的是，這種方式只適合單節點集群，而且缺乏高可用性和故障恢復機制。
NFS（Network File System）：NFS是一種分佈式文件系統，可以在多個節點之間共享文件。你可以使用NFS伺服器提供持久化存儲，並將其掛載為Kubernetes中的PV。
iSCSI：iSCSI是一種塊存儲協議，它可以通過網絡將存儲設備映射為本地塊設備。你可以使用iSCSI裝置提供持久化存儲，並將其作為PV掛載到Kubernetes中的Pod中。
Ceph：Ceph是一種分佈式存儲解決方案，它提供對象存儲、塊存儲和文件系統的支持。你可以使用Ceph作為PV提供持久化存儲，這樣可以實現高可用性和可擴展性。
GlusterFS：GlusterFS是一種分佈式文件系統，可以提供高可用性和可擴展性的存儲。你可以使用GlusterFS作為PV，讓Kubernetes中的Pod使用這種分佈式文件系統。
雲端提供商的持久化存儲服務：如果你在公有雲上運行Kubernetes，大多數雲提供商都提供了專門的持久化存儲服務，例如Amazon EBS（Elastic Block Store）或Google Persistent Disk。你可以使用這些服務來實現PV。

SDS則是一種更廣泛的存儲技術，它可以用來管理和處理各種存儲資源，並提供更高級別的抽象和自動化。在Kubernetes中，PV可以使用SDS技術來實現，例如使用Ceph、GlusterFS等SDS解決方案作為Kubernetes Persistent Volumes的後端存儲。

SDS不一定要是物件存儲服務才算。SDS可以涵蓋多種存儲技術，包括塊存儲、文件存儲和物件存儲等。重要的是，SDS是通過軟件進行存儲管理和控制，而不依賴於特定硬體或供應商。

SDS是一種以軟件為基礎的存儲管理方法

SDS（軟件定義存儲）是一種存儲技術的方法論，它通過軟件層面的控制和管理來處理存儲資源，而不是依賴於特定的硬體設備或供應商。這意味著SDS可以在不同的硬體平台上運行，並且可以支援多種存儲技術，如塊存儲、文件存儲和物件存儲等。SDS的目標是提供一個統一的、抽象的存儲管理接口，使得存儲資源的配置、管理和控制可以在軟件層面進行，而不需要直接依賴於特定的硬體或供應商的API。

當談到儲存圖片和影片等數據時，最終這些數據是需要存儲在硬碟上的，而硬碟是物理媒體。SDS並不是指數據直接存在於軟件中，而是指存儲管理和控制的功能在軟件層面進行。

SDS可以使用不同的硬體設備來實現存儲，比如使用傳統硬碟（HDD）、固態硬碟（SSD）、雲端存儲、存儲區域網絡（SAN）等。這些硬體設備提供實際的數據存儲介質，而SDS則通過軟件抽象出這些硬體設備的管理和控制功能。

總的來說，SDS是一種以軟件為基礎的存儲管理方法，它可以在不同的硬體平台上運行，並且可以支援多種存儲技術，但最終數據仍然需要存儲在實際的硬碟或媒體上。

使用SDS來蒐集ML資料的優勢

使用SDS（軟件定義存儲）可以幫助蒐集機器學習（Machine Learning，ML）所需的資料，並且相對於傳統的數據存儲方式，它可能更有利於處理大量數據並提供更好的可擴展性和彈性。

以下是幾個使用SDS來蒐集ML資料的優勢：

彈性和可擴展性：SDS可以基於軟件進行存儲管理和控制，這意味著你可以方便地擴展存儲容量，並根據需要增加或減少資料存儲的規模。這對於處理大量數據和快速增長的需求是非常有利的。
多種存儲技術支援：SDS可以支援多種存儲技術，包括物件存儲、塊存儲和文件存儲等。這使得你可以根據不同的數據類型和用途，選擇最合適的存儲技術，而不必局限於單一的存儲方式。
數據複製和冗余：SDS通常提供數據複製和冗余功能，這可以確保數據的高可用性和持久性。這對於在ML訓練過程中保證數據完整性和可靠性是非常重要的。通常，SDS或存儲系統會提供一些配置選項來控制數據的冗余程度，如副本數量或冗余策略。你可以根據應用的需求，選擇適當的冗余程度，以平衡數據可用性和資源消耗。
異地備份：SDS還可以支援異地備份，將數據備份到不同的地理位置。這樣即使出現故障或災害，你的數據仍然可以安全地恢復。
快速數據存取：某些SDS解決方案可以提供高速的數據讀取和寫入性能，這對於需要快速存取大量數據的機器學習訓練是非常重要的。