mercoledì 17 dicembre 2008

anche i 'miei' server si piantano ...

... e ci mancherebbe altro direte voi !
E naturalmente hanno deciso di piantarsi proprio alle 2 di notte ... grrrrr
Primo momento di brivido, per fartuna passato subito: la connessione da casa sembrava non funzionare (panico) poi invece tutto ok.
Allora, in soldoni: uno dei 4 ESX ha deciso di averne abbastanza, e mi ha piantato in asso, comprese le 12 VM che stava ospitando. Questo non sarebbe nemmeno male, ma il problema grosso è stato che le macchine si sono spostate negli altri ESX, ma non è andato tutto bene ... anzi, è andato da schifo e cioè quelle più 'cariche' erano in qualche modo 'impallate' (nemmeno riuscivo ad aprire la console), mentre quelle più 'scariche' (facevano poco o niente) sono ripartite correttamente. Of course che le più importanti, che dovevano essere assolutamente on-line erano le prime hehehe

Vabbè, per non farla troppo lunga: ho spento le VM non necessarie, ho ridistribuito le VM restanti per bilanciare il carico, ed è ripartito tutto (o quasi). in un oretta me la sono cavata, e sono tornato a dormire.

Al mattino dopo sembrava tuto ok, ma appena il carico di lavoro è entrato a regime ... diciamolo ... il server non ce la faceva più ! purtroppo ho indugiato un po' prima di spegnere qualche altra macchina (necessaria ma non indispensabile) e abbiamo avuto un altra ora di sofferenza: poi si è sistemato tutto. Nel pomeriggio è arrivato il pezzo di ricambio e il tecnico, e in un oretta di intervento si è risolto il problema.

Considerazioni
  1. accidenti ! nel 2006 quando è arrivato il server nuovo, era veramente sovradimensionato per le esigenze programmate, e anche per le possibili esigenze future. Ma dopo 2 soli anni, abbiamo aggiunto talmente tante cose che adesso siamo proprio al limite, altro che disaster Recovery (ma oggi abbiamo parlato con il grande capo per l'acquisto di un altro ESX, e sembrava disponibile)
  2. se ho contato bene, questa è la terza volta nel 2008 (l'unica così grave) che devo intervenire di notte. direi nella media, anche gli anni precedenti si tratta sempre di 2/3 volte all'anno ... direi che ci può stare
  3. panico, non trovo altre parole. Possibile che di tutto lo staff (7 persone) fossimo solo in 2 a mantenere la calma ? accidenti, e nessuno di loro è un ragazzino alle prime armi (uff) Cavoli, nemmeno le telefonate alle filiali riuscivano a fare ...

ok, anche questa è passata.

alla prox

Andrea

2 commenti:

Puntino ha detto...

it seems you're h24, aren't you ?
Are you a consultant ?

Zax (Andrea) ha detto...

no no, not h24 :-) sometime ...

Andrea