giovedì, luglio 26, 2007

365Main: il blackout visto il giorno dopo...

(L'ubriaco saggio del Piccolo principe che se ne sta tranquillo a bere e lascia stare i pulsanti di emergenza dei gruppi di continuità!)

365Main: qualche considerazione del giorno dopo sulla incredibile caduta per molte ore dei servizi ospitati da una delle server farm più rinomate del mondo...

Questa mattina il "momento caffè" lo ho speso andando a cercare in rete le notizie, invero non molte, sulla mancanza di rete che l'altro ieri ha colpito una area di San Francisco mettendo in ginocchio un data center rinomato per la sua modernità provocando lunghe interruzioni nei servizi ospitati.

La mancanza di rete non è stata poi gravissima: si è trattato di un problema di trasmissione aggravato, al rilancio dell'energia, dalla esplosione di un piccolo trasformatore interrato. Dopo due ore dal manifestarsi dell'evento tutti i clienti vedevano ripristinata la regolare fornitura di energia elettrica.

Raccontato così l'evento non ha in se nulla che possa minimamente preoccupare chi gestisce un data center ben progettato.

I resoconti parlano anche dell'ipotesi dell'improbabile intervento di un operatore ubriaco che avrebbe messo in crisi il sistema premendo alcuni pulsanti di emergenza, avete presente quelli rossi fatti a fungo. Francamente la cosa non mi pare molto credibile: ipotizzare che a qualcuno venga una idea del genere proprio in concomitanza con la mancanza di rete mi sembra molto fantasioso, anche se ovviamente può essere un'ottima giustificazione meno imbarazzante del dovere ammettere che il sistema di generazione di emergenza non ha funzionato.

Qualcuno ipotizza, e credo che sia la cosa più probabile, che alcuni dei motori diesel non siano semplicemente partiti lasciando cadere le macchine come se si fosse tolta la spina.

Quasi.dot pone sul suo blog interessante domande alle quali cerco, per quanto posso, di dare una risposta.

Personalmente non credo si tratti di un problema legato alla complessità dei sistemi: il mantenimento della potenza elettrica è un problema semplice da definire, dalle soluzioni oramai consolidate e relativamente facile da gestire.

La presenza di pacchi di batterie distinti e con linee di collegamento e di controllo multiple alimentati da gruppi di generazione diesel dovrebbe rendere la probabilità di caduta della rete assolutamente minima e limitata ad eventuali gravissimi danni strutturali all'edificio che ospita il tutto o a incendi di vastissime proporzioni. Per un sistema ben progettato e ben mantenuto le probabilità di caduta in caso di mancanza rete sono vicine allo zero.

La tendenza a consumare sempre meno energia nei sistemi gioca in questo caso a favore in quanto una diminuzione della energia consumata comporta l'effetto favorevole della diminuzione della energia da erogare in caso di problemi.

I sistemi inerziali "flywheel" hanno lo svantaggio di dover essere tenuti sempre in rotazioni e sono capaci di sostenre la rete per il tempo necessario alla partenza del generatore: molto meglio le batterie che in caso di problemi staccando i carichi inutili possono reggere per ore e dare il tempo di risolvere il problema.

E' corretto che 365Main dica che la forte complessità dei suoi sistemi giustifica i tempi di riavviamento lunghi: se stacco la spina al server a metà di una transazione la ripartenza con preservazione della integrità dei dati richiede operazioni lente e complesse. E' proprio per questo che i sistemi vanno progettati in modo da non fare cadere i server di colpo e in modo che se proprio debbono cadere il software abbia il tempo pe runa chiusura ordinata delle transazioni.

Comunque la si giri un evento del genere a fronte di una caduta di energia al massimo di due ore non doveva succedere e credo che 365Main farebbe molto bene a ripensare il disegno dei suoi sistemi di backup elettrico e sopratutto le sue procedure di test periodico dei sistemi.

Nessun commento:

Posta un commento

Qualche esperimento...