Michele Petrazzo
2010-06-02 15:11:27 UTC
Buon pomeriggio,
oggi mi è successa una brutta cosa: un server (in produzione) mi si è
bloccato e non rispondeva più, ne rete (ssh/ping), ne console seriale o
fisica. Bello bloccato direi...
Andando a frugare nei log dei vari software in produzione / demoni, ho
potuto vedere che il problema è nato (credo, non ne sono sicuro) da
postgresql v. 8.3
Nei log vedo, qualche minuto prima del problema:
ERROR: deadlock detected
CEST DETAIL: Process 3497 waits for ShareLock on transaction 8104365;
blocked by process 3514.
Altra informazione utile, credo, è che munin mi dice che da un po' prima
(circa 1 ora, dal grafico non si capisce molto bene) netstat, numero di
processi, vmstat running load sono aumentati vertiginosamente fino a
quando il tutto si è bloccato. Netstat, da 20 a 200, processi: 120 ->
400, vmstat running: 1 -> 40, load: 1 (neanche) -> 30.
Non vi chiedo di dirmi perché il tutto è successo :), ma secondo voi
cosa si può fare per evitare che se per un qualsiasi motivo un software
o qualsiasi altro accrocchio che gira sul server fa casini, non mandi a
donnine il server intero?
debian con kernel 2.6.30
Michele
oggi mi è successa una brutta cosa: un server (in produzione) mi si è
bloccato e non rispondeva più, ne rete (ssh/ping), ne console seriale o
fisica. Bello bloccato direi...
Andando a frugare nei log dei vari software in produzione / demoni, ho
potuto vedere che il problema è nato (credo, non ne sono sicuro) da
postgresql v. 8.3
Nei log vedo, qualche minuto prima del problema:
ERROR: deadlock detected
CEST DETAIL: Process 3497 waits for ShareLock on transaction 8104365;
blocked by process 3514.
Altra informazione utile, credo, è che munin mi dice che da un po' prima
(circa 1 ora, dal grafico non si capisce molto bene) netstat, numero di
processi, vmstat running load sono aumentati vertiginosamente fino a
quando il tutto si è bloccato. Netstat, da 20 a 200, processi: 120 ->
400, vmstat running: 1 -> 40, load: 1 (neanche) -> 30.
Non vi chiedo di dirmi perché il tutto è successo :), ma secondo voi
cosa si può fare per evitare che se per un qualsiasi motivo un software
o qualsiasi altro accrocchio che gira sul server fa casini, non mandi a
donnine il server intero?
debian con kernel 2.6.30
Michele