上周,亞馬遜在都柏林數(shù)據(jù)中心遭雷擊,當(dāng)時亞馬遜表示數(shù)據(jù)中心需要10天左右時間來維修。本周,亞馬遜發(fā)布了一份詳細的事故報告。
為什么發(fā)電機無法啟動
一般來說,當(dāng)市電中斷時,數(shù)據(jù)中心會無縫啟用備用發(fā)電機??删幊踢壿嬁刂破鳎≒LC)能夠?qū)崿F(xiàn)發(fā)電機與供電系統(tǒng)的同步。在這種情況下,其中一個PLC沒有完成與發(fā)電機連接。目前,亞馬遜觀測了該PLC的狀態(tài)和行為,主要原因是PLC的接地故障導(dǎo)致它沒有正常工作。“我們正在與供應(yīng)商,并進行進一步分析,以確認所涉及的設(shè)備。”亞馬遜表示,將增加更多的冗余和其PLC的隔離,并與供應(yīng)商的工作添加一個備份的PLC。
管理軟件存在的問題
在一些情況下,軟件程序會管理復(fù)雜的復(fù)蘇過程。第一次停電后不久。“管理服務(wù)器接收請求,要求繼續(xù)管理受影響區(qū)域。但由于在受影響的可用性區(qū)域管理服務(wù)器無法訪問,路由到這些服務(wù)器的請求失敗。其次,在管理服務(wù)器接收到請求,但這些請求開始大量的排隊。“我們重載管理服務(wù)器接收請求,等待這些排隊的請求完成。這兩個因素的結(jié)合,導(dǎo)致長時間的延時和更高的錯誤發(fā)生。”
EBS軟件的問題
在停機中,受影響最嚴(yán)重是亞馬遜的彈性塊存儲(EBS)。軟件錯誤檢測到停電前,在恢復(fù)過程中產(chǎn)生了諸多問題。