| 封面故事 | ML | AI | 機器學習 | SRE | ML可靠性戰略 | google | 服務可靠性工程 | ML當機

10多年Google ML維運經驗,歸納19種ML當機情境要注意

Google ML維運團隊分析近百起大型ML當機事故後發現,系統出錯原因不盡然是ML本身問題,而是與系統管理方式有關

2022-03-15

| 封面故事 | ML | AI | 機器學習 | SRE | ML可靠性戰略 | google | 服務可靠性工程

十多年ML系統SRE經驗,Google練出4大ML可靠性戰略

13年前,Google在匹茲堡設立了第一個ML SRE團隊,開始將累積了好幾年的SRE經驗,開始運用到ML系統,先從改善搜尋引擎關鍵字廣告投放精準做起,後來擴大導入到各式各樣的ML服務,甚至要發展成可以支援多模型類型多租戶架構的ML維運平臺

2022-03-15