功能介紹
TensorFlow Extended (TFX) 是Google 開發的一個開源框架,用於在TensorFlow 中構建機器學習管道。TFX 的目標是簡化機器學習管道的構建過程,使其能夠更容易地部署和維護。
其中TFX 管道是TFX 中的一個重要部分,它是一種用於組織和管理機器學習工作流的方式。TFX 管道由多個組件組成,每個組件負責執行特定的任務,如數據預處理、訓練、評估等。TFX 管道中的組件可以由TFX 提供的組件使用,也可以使用自定義組件。
TFX 管道通過使用Apache Airflow 或Kubeflow Pipelines 在組件之間傳遞數據來實現自動化的機器學習工作流。這樣可以在一個可視化的界面上監控和管理管道執行過程,並且在管道中的每個步驟之間自動傳遞數據。
強大的資料處理工具
TFDV 結合開源的 Facets ,是可以幫助理解和分析機器學習數據集的開源可視化工具,在 Google AI Blog 中展示了透過 Facets 視覺化抓出 CIFAR-10 資料集中一個錯誤分為貓咪的青蛙的圖片。
TFDV 容許兩個資料及之間的分布對照,例如訓練資料與測試資料,迅速抓出資料飄移與偏斜情形,而 TFDV 更進一步可以做到修正與納入新特徵,以及整合在筆記本及 TFX 之中。
PS: 以上資料來自於Day 14 : 資料驗證 TensorFlow Data Validation (TFDV)
安裝TFX
pip install tfx pip install -i https://pypi-nightly.tensorflow.org/simple --pre tfx
上文命令會安裝 TFX 的主要依賴項的軟件包,例如 TensorFlow 模型分析 (TFMA)、TensorFlow 數據驗證 (TFDV)、TensorFlow 轉換 (TFT)、TFX 基本共享庫 (TFX-BSL)、ML 元數據 ( MLMD)。
這些組件之間的數據流
下圖說明了TFX庫與流水線組之間的關係:
研究感想
這個工具組裡面的TFDV非常的吸引我,但是後來發現若要使用TFDV去驗證資料,前面還是需要把資料集先經過前面FTX的流水線處理過後,才有辦法使用Facets去可視化已經經過驗證後的資料結果。Facets並沒有辦法直接讀入未經TFX流水線處理過的原始資料集,而FTX對現在的我還有一點複雜,所以先大概知道有這個工具,然後以後再來慢慢摸索。