不需要標記資料，BigQuery ML提供易用的資料異常偵測模型

Google在BigQuery ML中加入新的異常資料檢測功能，該功能利用無監督機器學習來檢測資料異常，因此用戶不需要提供標記訓練資料。用戶可以開始使用ML.DETECT_ANOMALIES函式，並且選用自動編碼器模型、k-平均演算法模型或ARIMA_PLUS時間序列模型，來檢測訓練資料或是新輸入資料中的異常。

當企業擁有已標記的異常資料，就可以利用各種監督式機器學習模型，來找出資料中的異常，但是Google提到，不少組織難以定義異常，無法判斷網路入侵、製造瑕疵或是保險詐欺等情況，當組織無法確定異常情況，而且手上也沒有標記資料，便無法使用典型的預測技術。

而BigQuery ML新加入的資料異常偵測，可以解決這個問題，降低應用異常偵測的障礙。BigQuery ML提供3種現成的模型，當用戶要檢測非時間序列資料中的異常，可以使用k-平均演算法，模型會根據每一個輸入資料點，到最近群集的正規化距離，來判斷異常資料，如果該距離超過用戶設定的污染數值閾值，則資料點便會被判定為異常。

而自動編碼器模型則是根據每個資料點重建錯誤，來辨識異常資料，當錯誤超過由污染數值所定義的閾值，便會被模型判定為異常。另外，ARIMA_PLUS時間序列模型，會根據時間戳記的信賴區間來判定異常，當時間戳記的資料點，出現在預測區間外的機率，超過用戶所提供的機率閾值，則資料點會被判定為異常。

熱門新聞