Google在BigQuery ML中加入新的異常資料檢測功能,該功能利用無監督機器學習來檢測資料異常,因此用戶不需要提供標記訓練資料。用戶可以開始使用ML.DETECT_ANOMALIES函式,並且選用自動編碼器模型、k-平均演算法模型或ARIMA_PLUS時間序列模型,來檢測訓練資料或是新輸入資料中的異常。

當企業擁有已標記的異常資料,就可以利用各種監督式機器學習模型,來找出資料中的異常,但是Google提到,不少組織難以定義異常,無法判斷網路入侵、製造瑕疵或是保險詐欺等情況,當組織無法確定異常情況,而且手上也沒有標記資料,便無法使用典型的預測技術。

而BigQuery ML新加入的資料異常偵測,可以解決這個問題,降低應用異常偵測的障礙。BigQuery ML提供3種現成的模型,當用戶要檢測非時間序列資料中的異常,可以使用k-平均演算法,模型會根據每一個輸入資料點,到最近群集的正規化距離,來判斷異常資料,如果該距離超過用戶設定的污染數值閾值,則資料點便會被判定為異常。

而自動編碼器模型則是根據每個資料點重建錯誤,來辨識異常資料,當錯誤超過由污染數值所定義的閾值,便會被模型判定為異常。另外,ARIMA_PLUS時間序列模型,會根據時間戳記的信賴區間來判定異常,當時間戳記的資料點,出現在預測區間外的機率,超過用戶所提供的機率閾值,則資料點會被判定為異常。

熱門新聞


Advertisement