- Mitglied seit
- 17. Dez 2006
- Beiträge
- 295
- Punkte für Reaktionen
- 426
- Punkte
- 113
Ich möchte euch ein paar Hintergrundinformationen geben, wie es trotz Raid, umfangreicher Backup Strategie und aktivem Monitoring zu dem Ausfall und einem Datenverlust von drei Tagen kommen konnte. Es ist ein gutes Beispiel dafür, dass in der IT manchmal Dinge, die man praktisch für unmöglich hält, passieren können, wenn nur genügend ungünstige Umstände zusammen treffen.
Das Forum läuft auf einem Raid1, wird alle zwei Stunden mehrfach extern gesichert und verfügt über ein aktives Fehler Monitoring mit Alarmierung. Wie kann es bei so einem Setup zu Datenverlust kommen? Theoretisch gar nicht, außer es kommen mehrere völlig außergewöhnliche Umstände zusammen.
Am Samstag Nachmittag kam es zu einem Link Loop im Dateisystem. Das führte dazu, dass der Backup Prozess quasi in einer Endlosschleife lief, in der die Datenbank zwar lokal, aber nicht mehr extern gesichert wurde. Es wurde kein Fehleralarm ausgelöst, weil der Prozess ja prinzipiell ordnungsgemäß lief. Da wir kürzlich unsere Backup Kapazität massive erhöht haben dauert es mehrere Tage bis zum Out of Space Error, der auf Grund des Fehlers irgendwann als Folgefehler aufgetreten wäre.
Ich sage immer, dass ein Monitoring auf Fehler nicht ausreicht, weil es elementare Probleme in der IT geben kann, die eben keinen Fehler auslösen. Aus diesem Grund verfügt der Backup Prozess über ein "Missing Positiv Monitoring", d.h. bleibt die Bestätigung über ein erfolgreiches Backup aus löst dies ebenso ein Alarm aus. Diese Alarme brauchen allerdings etwas länger, da bei zu kurzen Intervallen es zu häufig zu Fehlalarmen kommt.
Dieser Alarm erreichte mich am Flughafen kurz vor dem Einsteigen ins Flugzeug auf dem Weg in den Urlaub. Bis hierhin ist das alles noch kein Problem, wenn nicht zwei weitere absolut unwahrscheinliche Ereignisse hinzu gekommen wären.
Bevor ich am Zielort aus dem Hotel eingreifen konnte führte die Strato eine Stromabschaltung für Wartungsarbeiten im Rechenzentrum durch. Das ist ein Ereignis, das vielleicht einmal in zehn Jahren vor kommt, eher seltener. Diese Stromabschaltung führte dazu, dass beide Festplatten im Raid 1 gecrasht sind. Es kommt durchaus häufiger vor, dass Festplatten, die über Jahre durchlaufen, nicht mehr hoch kommen, wenn man sie einmal vom Strom trennt. Ohne Trennung würden sie vermutlich Jahre weiter laufen. Dass aber gleich beide Platten so crashen ist ungewöhnlich.
Ich musste nun entscheiden, das Forum für Tage offline zu lassen, bis ich mit Hilfe von Mitarbeitern im Rechenzentrum in Berlin vielleicht Zugriff auf eine der Platten bekommen hätte oder das Forum mit dem letzten Stand vor dem Link Loop Problem wieder online bringen. Ich habe mich für die letzte Variante entschieden.
Nun zu der Frage wie hätte man das verhindern können? Nur durch ein SLA, ein Service Level Agreement mit garantierter Reaktionszeit. Die Reaktionszeit darf dabei nur so lange sein wie man maximal bereit ist, Datenverlust hinzunehmen. Solche SLAs sind nicht ganz günstig. Einen Ausfall dieser Art würde ich als "Once in a Lifetime" Ereignis bezeichnen. Ich habe in 30 Jahren IT Administration noch nie erlebt, dass so außergewöhnliche Umstände zusammen kommen.
Der Betrieb des Forums wird vollständig aus eigener Tasche bezahlt, Server, Lizenzen, Domains, Backupspeicher und unzählige Stunden an Arbeit. Es gibt so gut wie jeden Tag was zu tun, um das Forum spamfrei zu halten, DSGVO Anfragen zu beantworten oder andere administrative Aufgaben. Ein SLA für Extremereignisse ist da nicht realistisch. Das Forum ist unabhängig und läuft auch nicht auf Synology Hardware. In den letzten 15 Jahre gab es so gut wie keinen Ausfall. Es gibt vermutlich kaum jemanden hier, der sich an eine nennenswerte Downtime erinnern kann.
Um das Risiko für Hardware-Ausfälle zu reduzieren plane ich das Forum demnächst auf eine virtuelle Plattform umzuziehen. Ob das mit vertretbaren Kosten zu machen ist, ist noch nicht ganz klar. Die Anforderungen an die Rechenleistung sind nicht ganz gering. Wir werden sehen.
Das Forum läuft auf einem Raid1, wird alle zwei Stunden mehrfach extern gesichert und verfügt über ein aktives Fehler Monitoring mit Alarmierung. Wie kann es bei so einem Setup zu Datenverlust kommen? Theoretisch gar nicht, außer es kommen mehrere völlig außergewöhnliche Umstände zusammen.
Am Samstag Nachmittag kam es zu einem Link Loop im Dateisystem. Das führte dazu, dass der Backup Prozess quasi in einer Endlosschleife lief, in der die Datenbank zwar lokal, aber nicht mehr extern gesichert wurde. Es wurde kein Fehleralarm ausgelöst, weil der Prozess ja prinzipiell ordnungsgemäß lief. Da wir kürzlich unsere Backup Kapazität massive erhöht haben dauert es mehrere Tage bis zum Out of Space Error, der auf Grund des Fehlers irgendwann als Folgefehler aufgetreten wäre.
Ich sage immer, dass ein Monitoring auf Fehler nicht ausreicht, weil es elementare Probleme in der IT geben kann, die eben keinen Fehler auslösen. Aus diesem Grund verfügt der Backup Prozess über ein "Missing Positiv Monitoring", d.h. bleibt die Bestätigung über ein erfolgreiches Backup aus löst dies ebenso ein Alarm aus. Diese Alarme brauchen allerdings etwas länger, da bei zu kurzen Intervallen es zu häufig zu Fehlalarmen kommt.
Dieser Alarm erreichte mich am Flughafen kurz vor dem Einsteigen ins Flugzeug auf dem Weg in den Urlaub. Bis hierhin ist das alles noch kein Problem, wenn nicht zwei weitere absolut unwahrscheinliche Ereignisse hinzu gekommen wären.
Bevor ich am Zielort aus dem Hotel eingreifen konnte führte die Strato eine Stromabschaltung für Wartungsarbeiten im Rechenzentrum durch. Das ist ein Ereignis, das vielleicht einmal in zehn Jahren vor kommt, eher seltener. Diese Stromabschaltung führte dazu, dass beide Festplatten im Raid 1 gecrasht sind. Es kommt durchaus häufiger vor, dass Festplatten, die über Jahre durchlaufen, nicht mehr hoch kommen, wenn man sie einmal vom Strom trennt. Ohne Trennung würden sie vermutlich Jahre weiter laufen. Dass aber gleich beide Platten so crashen ist ungewöhnlich.
Ich musste nun entscheiden, das Forum für Tage offline zu lassen, bis ich mit Hilfe von Mitarbeitern im Rechenzentrum in Berlin vielleicht Zugriff auf eine der Platten bekommen hätte oder das Forum mit dem letzten Stand vor dem Link Loop Problem wieder online bringen. Ich habe mich für die letzte Variante entschieden.
Nun zu der Frage wie hätte man das verhindern können? Nur durch ein SLA, ein Service Level Agreement mit garantierter Reaktionszeit. Die Reaktionszeit darf dabei nur so lange sein wie man maximal bereit ist, Datenverlust hinzunehmen. Solche SLAs sind nicht ganz günstig. Einen Ausfall dieser Art würde ich als "Once in a Lifetime" Ereignis bezeichnen. Ich habe in 30 Jahren IT Administration noch nie erlebt, dass so außergewöhnliche Umstände zusammen kommen.
Der Betrieb des Forums wird vollständig aus eigener Tasche bezahlt, Server, Lizenzen, Domains, Backupspeicher und unzählige Stunden an Arbeit. Es gibt so gut wie jeden Tag was zu tun, um das Forum spamfrei zu halten, DSGVO Anfragen zu beantworten oder andere administrative Aufgaben. Ein SLA für Extremereignisse ist da nicht realistisch. Das Forum ist unabhängig und läuft auch nicht auf Synology Hardware. In den letzten 15 Jahre gab es so gut wie keinen Ausfall. Es gibt vermutlich kaum jemanden hier, der sich an eine nennenswerte Downtime erinnern kann.
Um das Risiko für Hardware-Ausfälle zu reduzieren plane ich das Forum demnächst auf eine virtuelle Plattform umzuziehen. Ob das mit vertretbaren Kosten zu machen ist, ist noch nicht ganz klar. Die Anforderungen an die Rechenleistung sind nicht ganz gering. Wir werden sehen.