Skype資訊長Lars Rabbe周三(12/30)出面說明Skype在上周故障長達一天的原因,表示一開始是因離線傳訊伺服器超載,再加上特定版本的Skype無法處理這些延遲的訊息,導致當中有20%的超級節點喪失能力,並讓剩下的超級節點負載過重而先後失去作用,這一連串的骨牌效應使得該事件在發生幾小時後就幾乎影響所有的使用者。

Rabbe表示,當時負責離線訊息的伺服器過載,部份Skype用戶從這些過載的伺服器上收到了延遲的訊息,但視窗版的Skype 5.0.0152無法妥善處理這些延遲訊息,並導致Skype當掉。雖然只有該版本受到影響,其他更新或較舊的版本仍然運作正常,但有約5成的Skype用戶執行了此一有臭蟲的版本,其中的4成用戶因而當機,包含了25~30%的超級節點。

超級節點在P2P網路中扮演重要的角色,它負有比一般節點更多的責任,類似目錄,可協助建立Skype間的連結,通常每個超級節點可建立數百個節點的區域叢集。Rabbe說,當25~30%的超級節點失去作用時,其他的超級節點負荷就會變重,就在此時,那些程式當掉的Skype用戶又紛紛重新執行Skype,而且事情發生時剛好是使用Skype的尖峰時間,當時超級節點的負荷約是平常的100倍,超越了原本的設定值,導致有更多的超級節點當掉,這一串的連鎖效應讓事情發生的幾小時後就讓幾乎全部的超級節點掛點。

在此一故障發生後,Skype團隊旋即建立數百個Mega超級節點,以暫時因應Skype網路對超級節點的需求,而使得Skype服務慢慢回復正常。由於Skype是將原本用來支援群組視訊通話的資源來修復Skype網路,所以群組視訊通話功能一直到聖誕節前夕才完全恢復。

此一故障幾乎影響了全球的Skype用戶,Rabbe列出了避免同樣事件再發生的規畫,包括本周會釋出Skype 5.0.0152的更新版,而且未來打算提供自動更新機制;由於Skype 5的視窗版本原本是內部測試,後來開放數萬民眾進行公開測試,因此Skype將重新檢驗其測試程序,以避免有臭蟲的軟體影響整個系統;Skype也將繼續投資系統能力及可靠性,並從此一事件中學習如何提早發現問題,以及快速自故障中回復。(編譯/陳曉莉)

熱門新聞

Advertisement