Das Monitoring funktioniert. Leider fehlt noch die 24/7-Bereitschaft ;)

Screenshot
Zerlegt.
Kurz nach Mitternacht hat sich am Freitag morgen eine unserer Statistik-VMs ins Knie geschossen.

Die gute Nachricht: das Monitoring hat dies erkannt und hat viele viele Mails diesbezüglich verschickt.

Die schlechte Nachricht: bewirkt hat dies nichts …

Es ist mehr dem Zufall zu verdanken, das der Autor des Nachts wach wurde, auf »die Uhr« (sprich: das Handy) schaute — und die Mailanzahl an den technik-Account alarmierend fand.

Screenshot
Hätte man es früher gesehen …
Nun sind Mails ja erst einmal nicht böse.

Aber man muß wissen, daß seit der Einführung des Monitorings hinter den Kulissen auch viel Zeit darauf verwendet wurde, die Mailflut in den Griff zu bekommen. Einerseits durch fortlaufendes Feintuning der Grenzwerte bei den verschiedenen Alarmen, andererseits auch, indem für externe Mails strengere Anti-Spam-Regeln (durch Vorschaltung eines entsprechenden Filters) durchgesetzt wurden. Kurzum: ›technik@‹ sollte eigentlich unter 6 Mails am Tag bekommen — mit dem Wissen im Hinterkopf, erkennt man schnell, daß 20+ Mails seit dem Schlafengehen eher auf ein Problem schließen lassen …

… aber dies bleibt halt ein Zufallstreffer :-( Da wir kein 24/7-NOC haben, in dem Menschen im 3-Schicht-Betrieb kontinuierlich auf die Ausgaben des Monitorings starren und bei Problemen irgendwelche armen Schweine oder Schweininen anrufen, auf das jene die Probleme lösen … wird es auch in Zukunft vorkommen, daß Teilfunktionen des Netzes ausfallen und dies quasi eher zufällig bemerkt wird.

Screenshot
Traue keiner Sta­tis­tik …
Wobei …

… hervorzuheben an dieser Stelle ist, daß trotz dieser widrigen Bedingungen die Verfügbarkeit des Statistikservers noch immer über der zugesicherten Verfügbarkeit einer [V]DSL-Leitung liegt … Ganz so schlecht sind wir also gar nicht ;)

Aber, und das ist die eigentliche Intention dieses Beitrages, gemeinsam wären wir stärker. Täten sich die Teams von Bielefeld, Nordlippe und Gütersloh zusammen, könnten wir zusammen deutlich mehr »rocken« als jeweils alleine. Das gilt im übrigen auch für Serverhardware; anstatt daß jeder VMs bucht, machte es ggf. mehr Sinn, daß zusammen komplette Server gemietet und gemeinsam betrieben werden …

PROBLEM – stats.4830.org is DOWN