| 編者的話 | 資料遺失 | 大當機 | MFA | 帳號安全 | 高中學習歷程檔案遺失 | Atlassian | SRE

能力越大,責任越大

寫著電影《蜘蛛人》經典臺詞:「能力越大,責任越大」的T恤頗受人青睞,這是否也象徵人們對於「力量」、「能力」、「權力」的渴望?同時,也不免讓人聯想「責任」是否成為一種裝飾或是獲得更大能力的藉口,而讓人忽略扛起這個重擔所要付出的代價

2022-06-02

| 封面故事 | 微服務 | Atlassian | 大當機 | SRE | Jira | SaaS

Atlassian四月大當機為何14天才復原?問題出在工程思維DR計畫,缺乏關鍵的顧客視角

Atlassian坦言,過去的DR計畫主要聚焦在基礎架構失敗的復原,或是從備份資料中復原企業所用服務儲存空間的做法,而少了一個關鍵環境,就是以顧客專屬入口網站(網站ID)視角的復原計畫

2022-05-23

| 封面故事 | 微服務 | Atlassian | 大當機 | SRE | Jira | SaaS

【微服務架構弱點,遇上超完整DR計畫盲點,連6年SRE老手都失守】SaaS業界近年最大當機事件追追追

這是一份值得臺灣企業參考的經典SRE事後分析報告,也是SaaS服務維運團隊必須了解的重大當機事件

2022-05-23

| 封面故事 | ML | AI | 機器學習 | SRE | ML可靠性戰略 | google | 服務可靠性工程 | ML當機

10多年Google ML維運經驗,歸納19種ML當機情境要注意

Google ML維運團隊分析近百起大型ML當機事故後發現,系統出錯原因不盡然是ML本身問題,而是與系統管理方式有關

2022-03-15

| 封面故事 | ML | AI | 機器學習 | SRE | ML可靠性戰略 | google | 服務可靠性工程

十多年ML系統SRE經驗,Google練出4大ML可靠性戰略

13年前,Google在匹茲堡設立了第一個ML SRE團隊,開始將累積了好幾年的SRE經驗,開始運用到ML系統,先從改善搜尋引擎關鍵字廣告投放精準做起,後來擴大導入到各式各樣的ML服務,甚至要發展成可以支援多模型類型多租戶架構的ML維運平臺

2022-03-15

| SRE | K8s | Line臺灣 | 應用可靠性 | 可觀測平臺 | 容器架構

8大關鍵服務維運監控得靠它,Line臺灣百億筆遙測數據的可觀察性平臺架構大公開

Line臺灣SRE團隊去年順利打造可觀察性平臺,是該團隊自2020年第三季成立以來,聚焦開發的第一個專案團隊維運共用工具。目前Line臺灣有8大應用開發團隊使用該平臺,像是Line Today、Line購物和Line音樂,截至今日,已收集超過百億則監控數據,包含30TB日誌、60TB指標,還有20TB鏈條追蹤,從中及早發現系統錯誤,減少意外事件。

2022-02-14

| 台積電 | 數位轉型 | IT人才 | TSMC | SRE | DevOps

【獨家披露:台積IT關鍵新能力1】為何台積電大舉招募SRE和DevOps?

去年3月底,台積官網發布了一種特別的新職缺,要招募國外火紅但臺灣少見的SRE,這不是臨時的IT布局,而是台積IT在2022年需要的關鍵人才

2022-01-28

| Target | SRE | 金絲雀部署 | Canary Deployment | 服務級別目標.SLO | 服務水準指標 | SLI

新手Target SRE首次重大事件的4個教訓

因為系統異動造成的問題,經常會延後發酵;監控機制必須連備用系統都監控,才有完整數據;第一時間先採取緩解對策,而不是先找出問題根源來處理;不要浪費事故教訓的價值,必須從這些事件來累積和學習

2022-01-20

| Target | SRE | 數位轉型 | DevOps

Target如何提前阻止大規模事故?從POS失效徵兆學到4大SRE教訓

這個成立才3個月的SRE團隊,驚覺幾家分店少數結帳POS機掃碼「嗶」聲響起的速度慢了,沒想到,竟是上周一次更新造成的微服務出錯,若不能趕快排除,不只全美近2千家分店,連服務上億顧客的網路商場都會大受影響,錯過2020年的復活節購物潮商機

2022-01-20

| CIO必看10大趨勢 | 雲端原生 | SRE | K8s | IT現代化

【展望後疫2022新趨勢3】IT現代化成為主流,SRE成為IT團隊必備新能力

2021年,不少企業要招募SRE職缺,不只網路原生公司,銀行、零售、高科技業,連房仲、保險、物流、媒體、百貨業者、線上電商都要招募SRE人才

2021-12-30

| google | DORA | SRE | DevOps

Google發布DevOps年度報告,菁英績效團隊的軟體交付時間從一天縮短至一小時內

2021年的Google的DevOps調查報告顯示,DevOps實踐表現最好的團隊,變得更加優秀,軟體交付時間從2019年的一天內,在今年縮短成一小時內

2021-09-22

| 網站可靠性工程 | google | SRE | Site Reliability Engineering | 17Live集團 | 7Live集團技術副總經 | 徐永吉 | 服務關鍵路徑 | Critical Path | SRE人才

【CTO看SRE:17Live集團技術副總經理徐永吉】SRE如何成為營運和工程單位的橋樑就靠2關鍵

SRE真正的價值,不是節省基礎設施成本或訂定系統可用性目標,而是要強健系統來降低營運損失,才能活化SRE在保護系統上的責任

2021-05-06