資料來源:iThome整理,2026年1月

 下文承接自  全面檢視2025全球10大IT當機事件(上)

PlayStation Network服務中斷

單就受影響的用戶數量而言,Sony的PlayStation Network(PSN)線上遊戲服務平臺,於2025年2月7日至8日發生的當機事故,可說是2025年度中,規模僅次於AWS服務中斷與韓國NIRS火災的重大IT當機事件,依據Downdetector網站的統計,用戶異常通報數量高達390萬件。

此次事故最早於美東時間2025年2月7日下午開始,陸續有玩家回報無法登入PSN。隨後至當天傍晚,問題進一步擴大,PlayStation Store、PS Plus、多人連線服務、雲端存檔同步功能皆出現全面異常,部分需要線上驗證的單機遊戲亦無法啟動,導致全球數百萬名玩家無法登入或使用PlayStation的線上服務,形成大規模當機事件。

Sony直到當天晚上才首次對外回應,承認PSN發生問題,並於2月8日凌晨表示正全力進行修復。服務於2月8日上午陸續恢復正常,Sony並在當天下午宣布全面恢復運作,整起事故持續時間接近24小時。

本次事故影響範圍涵蓋PSN線上多人遊戲與社交功能、PlayStation Store線上購物服務,以及部分需進行線上驗證的單機遊戲,為2011年4月PSN因外部攻擊而中斷服務23天以來,PSN歷來發生的第二大規模服務中斷事故。

但事故詳細技術原因Sony未公開,僅回應「運作問題」(Operational Issue),並且對訂閱PS Plus服務的用戶,提供額外5天免費會員期限延長的補償。

YouTube服務中斷事故

美東時間2025年10月15日下午至晚間,YouTube影音平臺發生全球範圍的大規模服務中斷事故。當日17點38分起,開始有大量用戶通報服務異常,隨後全球包括北美、歐洲、亞太、拉丁美洲,以及部分中東與非洲地區的用戶,皆出現無法正常播放影片的情況。服務於20點之後陸續恢復,整體當機時間約2小時。

此次事件為YouTube自2018年10月16日全球性當機事故後,第二次全球範圍的大型服務中斷,且影響規模更大、持續時間也更長,幾乎所有主要地區皆有用戶回報異常。Downdetector統計顯示,本次事故累積的全球用戶故障通報數約300萬件。

事故期間,YouTube主網站雖然能夠載入,但是影片無法正常播放,並顯示「Playback error」、「An error occurred」等錯誤訊息;YouTube Music與YouTube TV等相關服務也一度停擺。

YouTube僅於美東時間20點30分在社群平臺X(Twitter)上發布服務已恢復的簡短公告,並未進一步說明事故發生的詳細原因。不過,從故障期間首頁仍可顯示、但播放與登入等核心功能失效的情況判斷,問題應源自YouTube服務平臺的後端系統。

X(Twitter)的服務中斷

社群平臺X(Twitter)在3月與5月,各發生過1次大規模服務中斷事故。

 3月10日當機事故 

2025年3月10日,X(Twitter)發生全球範圍、間歇式的大規模服務中斷。事故最早於美東時間上午5點30分出現第一波異常,全球多個地區的使用者開始回報無法登入或無法載入動態。服務於上午6點左右短暫恢復,但隨後在上午9點30分與11點15分再度發生第二波與第三波中斷,每一波中斷的持續時間與受影響地區略有不同。

服務不穩定的情況在下午1點15分後逐漸改善,至下午3點25分之後,多數地區服務已趨於穩定。隔日上午5點左右仍出現少量服務中斷通報,但規模已明顯低於前一日。整起事故持續時間超過24小時。

此次事故影響範圍包括:北美(美國、加拿大)、歐洲(以英國為主,涵蓋部分東歐地區)、亞洲(以印度為主,包括臺灣與香港)、澳洲及南美(以巴西為主)等地。用戶普遍反映無法登入帳號、無法載入動態(Timeline)、無法發送訊息,或在使用App與網頁版時出現「連線逾時」等錯誤訊息。Downdetector統計顯示,本次事故累積的全球故障通報數達到200萬件。


 X(Twitter)的當機事故說明訊息 

在2025年3月10日與5月24日的2次大規模服務中斷事件中,X(Twitter)都只由負責人馬斯克在個人帳號上發布簡短說明,平臺本身沒有對事故狀態與原因,即時更新現況說明與細節解釋。圖片來源/X


事故發生期間,X(Twitter)並未發布服務狀態或修復進度說明,而是由公司所有人馬斯克(Elon Musk)於其個人帳號上,發布簡短訊息回應。

馬斯克於事件隔日表示,此次服務中斷係由「大規模網路攻擊(massive cyberattack)」所致,並稱該攻擊動用大量資源,可能來自大型協調組織或國家級行為者;他指出,X平臺每日都會遭受攻擊,但此次攻擊的規模特別龐大。然而,X(Twitter)並未公布正式的事故調查報告或具體技術細節,使外界難以確認實際的事故成因。

 5月24日當機事故 

2025年5月24日,X(Twitter)再度發生全球性的間歇式服務中斷。雖然事故規模小於3月10日,但在此之前的2天內,X(Twitter)已接連出現多起規模較小的異常事件,最終演變成較大規模的中斷事故,屬於一連串事件累積所造成的結果,我們這裡也一併介紹。

事件起於5月22日上午10點,X(Twitter)位於美國俄勒岡州Hillsboro 的資料中心發生火災。當日下午2點30分起,陸續有多個地區的數千名用戶回報無法登入、動態未更新及訊息載入異常等問題。X(Twitter)於下午4點21分透過工程團隊帳號(Engineering)承認服務異常,並表示正在修復中。雖然當日晚間服務逐步恢復,但整體效能有所降級,且不穩定狀況延續至5月23日,最終於5月24日上午爆發大規模的服務中斷。

美東時間上午8點至8點30分左右,各地區大量用戶通報無法存取網站或使用App。至上午10點後,多數地區服務恢復正常,但直到上午11點仍有少量用戶回報服務不穩定情形,整起事故持續時間約2小時。

此次事故主要影響北美與歐洲用戶,日本與澳洲也有零星故障回報,用戶反映的問題包括無法查看動態、無法發文及傳送訊息等,Downdetector 統計顯示,本次事故累積的故障通報數超過80萬件。

與3月10日事故相同,5月24日的服務中斷期間,X(Twitter)未發布正式公告或完整修復說明,事後也未提出詳細的調查報告。不過,馬斯克於當天晚間在個人帳號上坦承,備援系統未能如預期啟動,顯示公司在營運與系統韌性方面仍有重大改進空間。

Google Cloud雲端服務中斷 

2025年6月12日,Google Cloud發生全球範圍的大規模服務中斷事故,導致旗下多項核心雲端產品,以及依賴其基礎架構的第三方平臺服務出現中斷或錯誤回應。事故自當天上午10點51分起,至下午18點18分結束(均為太平洋時間),持續約7.5小時。

此次事故幾乎影響全球所有Google Cloud服務區域,包括北美、南美、歐洲、亞太、非洲與中東。多數區域在事故期間皆出現不同程度的服務異常或暫時中斷,Google Cloud的跨區域與全域(Global)管理與控制服務亦受影響。

受影響的Google自有服務包括:Google Workspace與多項消費端服務(如Gmail、Google Drive、Google Docs、Google Meet等),以及Google Cloud Platform(GCP)的核心雲端服務,包括Compute Engine、Cloud Storage、BigQuery、Cloud DNS、Cloud IAM、Cloud Dataflow等。

受影響的第三方平臺與服務則有:串流服務平臺Spotify與Twitch、社群平臺Discord與Snapchat,娛樂遊戲平臺Rocket League、Pokémon TCG Online,還有Shopify、Etsy、Calendly等電商與商務平臺、UPS與DoorDash等物流平臺。此外,在事故高峰期間,部分影音串流服務(如Netflix、Disney+、MLB.tv、fuboTV)亦出現零星異常通報。

值得注意的是,Google Cloud此次事故發生,與Cloudflare於同日發生的大規模服務中斷幾乎同時,進一步放大整體混亂情況。據稱導致Cloudflare當機原因的Workers KV服務外部儲存失效,就是Google Cloud提供)。


 Google Cloud的當機事故狀態說明 

在2025年6月12日的大規模當機事故期間,Google Cloud藉由Service Health介面,持續更新各地區復原狀態訊息。圖片來源/Google


Google的SRE(Site Reliability Engineering)團隊在事故發生後數分鐘內即確認問題來源。問題源自Google Cloud服務控制(Service Control)團隊於5月29日時,對配額(Quota)政策功能進行的程式更新,其中對「空白值」的檢查處理不夠完善。

細部的狀況是:在6月12日那一天,有某一個雲端服務區域為服務控制系統新增包含空白欄位的政策設定,觸發配額政策程式產生「空指標例外(Null Pointer Exception)」,導致服務控制系統崩潰。由於服務控制系統的分散式資料庫會自動同步配額政策更新,這項錯誤因此迅速擴散至全球各服務區域。

雖然SRE團隊很快採取修正措施,包括停用出問題的政策服務路徑並回復設定,但在服務控制系統故障期間,累積了大量待處理請求。當系統開始復原時,這些請求同時湧入底層系統,造成額外負載並延緩整體復原進度。最終,SRE團隊被迫採取限流與分流措施,逐步消化累積流量。多數服務區域在約2小時內恢復正常運作,但部分大型區域直到7小時後才完全復原。

Google Cloud在事故調查報告當中承認,此次事件源於組態與程式變更的測試不足,進而觸發分散式控制系統中潛藏的脆弱性。為此,Google承諾將強化全球資料同步前的驗證與測試流程,提升系統對於異常資料的容錯與監控能力,並改善事故期間的對外資訊揭露與溝通機制(例如這次事故中,業者在事故發生1小時後才首次對外發布公告)。

Spotify音樂串流服務當機

2025年4月16日,音樂串流平臺Spotify出現大規模服務中斷事故。當天美東時間上午8點20分起,開始有用戶通報無法正常載入、播放或搜尋音樂等問題,9點後故障通報迅速增加,Spotify在上午10點首次發布訊息,表示正在調查問題,隨後也持續發布與更新修復狀態,大多數地區在12點後逐步恢復服務,整起事故持續約3.5個小時。

這次事故影響Spotify全球範圍用戶,以北美(美國與加拿大)通報數量最多,其他主要影響區域還有歐洲(英、德、法與北歐),亞太(日本、韓國、臺灣、東南亞、澳洲)。主要問題包括無法播放、搜尋音樂串流,無法載入推薦與歌單,用戶登入也間歇失效,同時影響網頁、行動App與第三方整合裝置(如車用裝置與智慧音箱)。Downdetector統計這次事故累計收到的故障通報數將近110萬件。

事故發生後,Spotify透過帳號持續發布服務狀態更新,向用戶說明修復進度,並澄清此次事件並非駭客攻擊。不過,事件結束後,Spotify並未發布正式的事故調查報告或進一步的技術細節說明。

WhatsApp服務當機

2025年2月28日Meta旗下即時通訊服務平臺WhatsApp發生大規模服務中斷。當天美東時間上午10點30分起,以印度地區為主的用戶陸續回報無法傳送或接收訊息,隨後問題迅速擴散至全球。部分用戶表示服務曾短暫恢復又再次中斷;至上午11點之後,多數地區開始陸續恢復,約11點20分以後,全球大多數用戶的服務已恢復正常,核心通訊功能重新可用。

整起事故持續大約有1個小時。根據Downdetector記錄顯示,累計的用戶故障通報數達89萬件。

受影響最嚴重的地區為印度,美國、英國與中東地區亦有大量通報。受影響的WhatsApp功能,包括用戶登入、一對一與群組聊天、訊息同步 等核心服務;商務版本WhatsApp Business也出現短暫服務中斷與訊息回復延遲的情況。

在事故發生與修復過程中,Meta與WhatsApp均未發布即時的服務狀態公告,事後亦未對事故原因做出說明,外界無法得知詳細情況。

十大IT服務事故處理方式的對比

在我們前面列出的2025年10大重大當機事故中,除了韓國NIRS火災的影響範圍主要局限於韓國境內,其餘事故皆屬於跨區域、全球性的服務中斷事件。

不過,韓國NIRS火災雖然影響範圍較為集中,卻一舉癱瘓了約三分之一的韓國政府線上公務服務,實際受影響人數與衝擊程度,並不亞於其他商務或消費型服務平臺的當機事故。

關於各平臺在大當機事故發生之後的復原速度,我們已在前一篇文章提及,此處我們則將重點放在事故處理過程,以及資訊揭露的透明程度。

首先,在事故發生與進行應變處理的期間,並非所有平臺都會提供即時且充分的對外說明。在上述10大當機事故中,僅有6起事故,其在事故發生後,能即時對外發布事故訊息與修復進度,向用戶提供必要說明,分別為AWS、韓國NIRS、Cloudflare(2起)、Google Cloud與Spotify。

相較之下,其餘事故的資訊揭露程度明顯不足。其中,YouTube與WhatsApp在事故期間完全未對外發布任何說明,不過這兩起事故的持續時間也相對較短(分別約2小時與1小時)。另外,PlayStation Network與X(Twitter)則僅發布簡短訊息,承認服務異常或宣布已恢復運作,但未提供進一步說明。

其次,在事故原因揭露的層面上,整體情況同樣分歧。在10大事故中,有4起事故完全未公布事故原因,包括PlayStation Network、YouTube、Spotify與WhatsApp;另有1起事故僅公布相當粗略的說明,即X(Twitter);而其餘5起事故,則公布了較為完整的事故原因與調查報告,分別為AWS、韓國NIRS、Google Cloud,以及Cloudflare的2起事故。

我們初步的觀察是,不同性質的服務平臺,在事故資訊揭露上的態度存在明顯差異。政府公務系統通常承擔較高的政治與行政責任,因此往往需要對外說明事故經過與原因(如韓國NIRS);而以免費服務為主的消費型平臺,則多半傾向於不公開揭露事故原因(如YouTube、Spotify與WhatsApp),或僅提供極有限的資訊(如X)。至於訂閱制或企業導向的服務平臺,通常會發布相對完整的事故報告(如AWS、Google Cloud與Cloudflare),但也存在例外情況,例如PlayStation Network僅對訂戶提供補償,卻未公布事故原因。

這些差異正是使用各類數位平臺時必須認知的潛在風險。我們必須知道這是慣例或常態,因為日常使用的眾多免費IT服務,在事故發生時,業者可能不會主動提供公開說明,事後也未必提出完整解釋;即使是付費用戶,也不一定能在事故期間獲得充分、即時的資訊。

進一步觀察已公布事故原因的6起事故,可發現其成因亦具有代表性。其中,韓國NIRS屬於火災造成的實體災害;X(Twitter)則聲稱是遭遇大規模網路攻擊;其餘包括AWS、Google Cloud與Cloudflare的4起事故,皆源自服務平臺本身的系統或軟體發生問題。特別是Google Cloud與Cloudflare的事故,皆與系統的更新或組態的變更有關,顯示當前大型雲端與網路服務平臺在高度複雜的架構下,仍存在顯著的系統脆弱性——一次不妥善的更新,就有可能透過連鎖反應,引發大規模的服務中斷。


熱門新聞

Advertisement