微軟雲端機器學習服務,推出多項時間序列新功能,包括了新的預測函式、時間序列交叉驗證(Rolling Origin Cross Validation)以及時間視窗聚合功能等,除了能減少預測模型可能發生的誤差外,也套用新的模型特徵增加預測精準度。

用戶在處理時間序列資料時,根據預測應用的情境不同,需要更縝密地考量資料的狀態,像是可能需要針對每個預測重新訓練模型,或是克服歷史資料存在斷層的狀況(下圖),而微軟新加入的預測函式,是一種檢索預測值的新方法,能夠解決以上的問題。

物聯網的應用常會遇到訓練與預測資料存在差距的狀況,而使得訓練出來的模型變得不精準,微軟解釋,資料的變化應該反映在模型訓練上,但對於物聯網這類高頻率的應用,感測器的資料不斷變化,且受外部影響甚巨,因此即時重新訓練模型顯得不切實際。而新的預測函式則可以讓用戶新增近期預測上下文(Prediction Context),自動修正因資料斷層帶來的模型預測誤差,內插必要的訓練與預測上下文。

在時間序列資料驗證上,微軟為用戶提供了時間序列交叉驗證功能,微軟表示,交叉驗證是量測和減少模型採樣錯誤的重要程序,但當資料進行分區(Partitioning)卻不考量時間因素,可能導致預測錯誤,因為在時間序列資料上,必須確保測試的資料僅能使用過去的值。

而使用時間序列交叉驗證作為評估時間序列資料的機器學習標準方法,會使用一個原始時間點(Origin Time Point)切開訓練和驗證資料,藉由滑動原始時間點產生交叉驗證折疊,以確保資料正確的順序。時間序列交叉驗證會在預測功能中自動應用,用戶只需要傳遞訓練和驗證資料,以及想要進行交叉驗證的折數即可。

時間序列推薦功能中,也增加了滯後(Lags)和時間視窗聚合以增加預測的精確度,在Azure機器學習服務中的自動化機器學習,用戶現在可以指定目標滯後作為模型的一種特徵,並設定資料滯後的時間區間長度。另外,用戶可能可以需要設定一個時間視窗,以聚合時間視窗中的數值,對於預測能源需求的這類應用特別有用,用戶可以將時間視窗設定為三天(下圖),將不同的影響因素都納入考量。微軟提到,滯後與累加功能,能提供額外的資料特徵,因此可在提升模型的準確性。

針對銷售等容易受假日影響的預測應用,微軟新增了假日功能,系統可以在現存的資料集中,為每一個假日創建一個視窗,用於精確的預測假日對模型的影響,微軟表示,由於假日對於特定應用影響很大,行為模式甚至與平常日子完全不同,因此現在支援110個國家超過兩千個節日,用戶只要在時間序列設定中,輸入國家代碼,系統便會自動修正模型在假日中的行為。


Advertisement

更多 iThome相關內容