亞馬遜云計算數(shù)據(jù)中心遭雷擊更多細節(jié)

責(zé)任編輯:sunshine

2011-08-17 09:50:04

摘自:賽迪網(wǎng)

上周,亞馬遜在都柏林數(shù)據(jù)中心遭雷擊,當(dāng)時亞馬遜表示數(shù)據(jù)中心需要10天左右時間來維修。本周,亞馬遜發(fā)布了一份詳細的事故報告。

上周,亞馬遜在都柏林數(shù)據(jù)中心遭雷擊,當(dāng)時亞馬遜表示數(shù)據(jù)中心需要10天左右時間來維修。本周,亞馬遜發(fā)布了一份詳細的事故報告。

為什么發(fā)電機無法啟動

一般來說,當(dāng)市電中斷時,數(shù)據(jù)中心會無縫啟用備用發(fā)電機??删幊踢壿嬁刂破鳎≒LC)能夠?qū)崿F(xiàn)發(fā)電機與供電系統(tǒng)的同步。在這種情況下,其中一個PLC沒有完成與發(fā)電機連接。目前,亞馬遜觀測了該PLC的狀態(tài)和行為,主要原因是PLC的接地故障導(dǎo)致它沒有正常工作。“我們正在與供應(yīng)商,并進行進一步分析,以確認所涉及的設(shè)備。”亞馬遜表示,將增加更多的冗余和其PLC的隔離,并與供應(yīng)商的工作添加一個備份的PLC。

管理軟件存在的問題

在一些情況下,軟件程序會管理復(fù)雜的復(fù)蘇過程。第一次停電后不久。“管理服務(wù)器接收請求,要求繼續(xù)管理受影響區(qū)域。但由于在受影響的可用性區(qū)域管理服務(wù)器無法訪問,路由到這些服務(wù)器的請求失敗。其次,在管理服務(wù)器接收到請求,但這些請求開始大量的排隊。“我們重載管理服務(wù)器接收請求,等待這些排隊的請求完成。這兩個因素的結(jié)合,導(dǎo)致長時間的延時和更高的錯誤發(fā)生。”

EBS軟件的問題

在停機中,受影響最嚴(yán)重是亞馬遜的彈性塊存儲(EBS)。軟件錯誤檢測到停電前,在恢復(fù)過程中產(chǎn)生了諸多問題。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號