TensorFlow釋出資料驗證函式庫TFDV，進行大規模資料分析與驗證

TensorFlow現在釋出TensorFlow資料驗證（TensorFlow Data Validation，TFDV）工具，來幫助開發人員大規模理解、驗證以及監控機器學習的資料。

TensorFlow產品經理Clemens Mewald提到，學術界和業界都非常關注機器學習的演算法和效能，但是資料是其中最根本的要素，一旦資料錯誤，計算相關的最佳化工作都將前功盡棄，因此資料整理是一件重要的工作，以資料理解以及驗證來確保資料的正確性以及可用性。少量的資料可用人工的方式進行整理，但是在實務上，以人工進行資料驗證，就有點不切實際，因為資料通常以連續且大量形式抵達，所以有必要使用自動化和可擴展的資料分析、驗證以及監控方法。

而TensorFlow釋出的資料驗證TFDV是TFX（TensorFlow Extended）平臺的一部分，是Google每天用來分析和驗證PB級資料的技術，在快取中就能有效發現錯誤資料，將能幫助TFX使用者維護機器學習工作管線的健康運作。TFDV可以用在筆記型電腦以及產品環境的資料驗證，Clemens Mewald表示，在設計TFDV初期，他們就決定讓TFDV也能在筆記型電腦環境中運作，因為讓資料科學家和工程師，越早可以在工作流程使用TFDV越好，即便他們僅使用一小部分的資料進行研究，仍然要確保他們可以檢查並驗證使用的資料，除了避免錯誤發生外，也讓後續遷移至大規模部署的工作變得簡單。

TFDV基礎建立在一個強大的函式庫之上，能用來計算機器學習資料的描述性統計資料，這些統計資料將有助於開發人員了解他們的資料。而TFDV API目的在讓連接器可以使用不同的資料格式，並提供足夠的靈活性與擴展性。TFDV使用Apache Beam來定義和處理其資料工作管線，所以現有的Beam IO連接器以及使用者定義的PTransforms，可被用來處理不同的格式和資料表示法。

TFDV API除了提供由TFDV計算的標準統計資料外，只要該運算可以表示為Apache Beam轉換形式，TFDV API就能進行自定義統計資料計算，這些自定義統計資料在同樣的statistics.proto序列化，還可供下游函式庫使用。在筆記型電腦上，TFDV創建的Apache Beam工作管線，使用DirectRunner執行，而同樣的工作管線也可與其他Runner像是GCP上的DataflowRunner一併發布。Google還提到，Apache Flink和Apache Beam社群也將完成Flink Runner，未來也可以用來執行TFDV創建的Apache Beam工作管線。

在正式的產品環境中使用TFDV，也是使用和筆記型電腦相同的函式庫，進行大規模資料分析和驗證，只是有其特殊的使用案例，包括驗證連續到達的資料以及檢測訓練與服務間的偏差。現在官方已經在GitHub上開源TFDV，其中包括了筆記型電腦環境的範例程式碼。另外，官方也提供了端到端範例，展示了TFDV與TensorFlow Transform、TensorFlow Estimators、TensorFlow Model Analysis和TensorFlow Serving一起使用的方法。

熱門新聞