mercoledì, luglio 25, 2007



INCREDIBILE: una banale mancanza di rete a San Francisco fa cadere per ore quello che è considerato uno dei data center più sofisticati al mondo!

Questa mattina dando una occhiata a post della notte sui blog che segui ho trovato su Downloadblog la notizia di un blackout nella zona di San Francisco che ha provocato, verso la nostra mezzanotte scorsa, la caduta di servizi come la ricerca di Technorati e molti blog ospitati da 365Main sulla piattaforme di Six Apart.

Ho acceso subito CNN che non ne parlava, ho cercato sui siti news che non ne parlavano, razzolando poi nei siti dei giornali locali ho trovato la notizia di una caduta di alimentazione a una vasta zona di San Francisco dovuta, sembra, alla apertura di un sezionatore e a qualche danno causato ad una cabina di trasformazione al momento della richiusura. Il tutto di giorno: un evento tutto sommato molto contenuto.

365Main, un data center considerato molto avanzato e come tale trionfalmente descritto sul sito, è caduto e, a quanto dicono le notizie, il sistema di backup elettrico locale è stato avviato 45 minuti dopo la mancanza di tensione in rete!

45 minuti sono un tempo, in questo cosa, biblico, nemmeno 45 millisecondi sono ammessi: un data center degno di questo nome ha oltre ai generatori che devono alimentare i sistemi quando la rete manca anche gruppi di continuità alimentati a batteria, enormi parchi di batterie, che alimentano il sistema nel tempo che intercorre tra la mancanza di alimentazione e il raggiungimento del regimo operativo dei motori diesel di emergenza.

La cosa ha dell'incredibile e ovviamente ancora una volta il sito 365Main resta lì trionfale a dichiarare la garnde sicurezza dei loro sistemi, senza il minimo accenno all'incidente e senza una riga di scuse!

3 commenti:

  1. Roberto, come ben sai più layer ci sono e più gli errori umani o i guasti sono in agguato dietro ogni angolo.

    Io ricordo, non molto tempo fa e in un datacenter che dovresti conoscere, una situazione simile dovuta a un guasto (o un errato posizionamento, non ricordo) di un interruttore elettrico che ha impedito l'afflusso di corrente dal generatore...

    RispondiElimina
  2. Certamente ci sono vari strati e varie responsabilità ed è proprio questo il motivo per cui almeno una vota alla settimana il gruppo dovrebbe essere testato e periodicamente si dovrebbero fare delle prove di mancanza rete vere.
    Nel caso che cisti tu il guasto fu molto bastardo: il sistema partì regolarmente e solo dopo molte ore si manifestò un malfunzionamento nella catena che dal motogeneratore andava alle batterie ed è per questo che nelle prove settimanali non si era evidenziato nulla.
    Nulla comunque si fermò e in seguito venne modificato il sistema per eliminare anche quella remota possibilità.
    Nella mia vita professionale ho visto molto di peggio: anni fa in un ospedale c'erano due gruppi che venivano provati una settimana uno e una settimana l'altro, fu solo a fronte di una mancanza rete prolungata che ci accorgemmo, accendendoli per la prima volta tutti e due che erano stati cablati in controfase... il botto dell'interruttore che esplodeva si è sentito a un chilometro di distanza!
    Stando alle notizie quelli di 365Main sono caduti a palla e ci hanno messo 45 minuti ad accendere i gruppi e sei ore a fare ripartire il tutto.
    Resta incredibile...

    bob

    RispondiElimina
  3. Personalmente mi pare plausibile l'ipotesi del sabotaggio, aggravata da una situazione gia' critica... Magari non di un dipendente ubriaco come dice Valleywag (che e' divertente ma non propriamente affidabile) pero' qualcosa di simile. La cosa favolosa e' la press release di redenvelope... che tempismo!

    La domanda che mi viene pero' e': perche' tenere i servizi concentrati in questo modo su di un singolo sito? perche' rinunciare al DRP a priori?

    RispondiElimina

Qualche esperimento...