Serverausfall

Marc · 13. Okt. 2021

Ich möchte euch ein paar Hintergrundinformationen geben, wie es trotz Raid, umfangreicher Backup Strategie und aktivem Monitoring zu dem Ausfall und einem Datenverlust von drei Tagen kommen konnte. Es ist ein gutes Beispiel dafür, dass in der IT manchmal Dinge, die man praktisch für unmöglich hält, passieren können, wenn nur genügend ungünstige Umstände zusammen treffen.

Das Forum läuft auf einem Raid1, wird alle zwei Stunden mehrfach extern gesichert und verfügt über ein aktives Fehler Monitoring mit Alarmierung. Wie kann es bei so einem Setup zu Datenverlust kommen? Theoretisch gar nicht, außer es kommen mehrere völlig außergewöhnliche Umstände zusammen.

Am Samstag Nachmittag kam es zu einem Link Loop im Dateisystem. Das führte dazu, dass der Backup Prozess quasi in einer Endlosschleife lief, in der die Datenbank zwar lokal, aber nicht mehr extern gesichert wurde. Es wurde kein Fehleralarm ausgelöst, weil der Prozess ja prinzipiell ordnungsgemäß lief. Da wir kürzlich unsere Backup Kapazität massive erhöht haben dauert es mehrere Tage bis zum Out of Space Error, der auf Grund des Fehlers irgendwann als Folgefehler aufgetreten wäre.

Ich sage immer, dass ein Monitoring auf Fehler nicht ausreicht, weil es elementare Probleme in der IT geben kann, die eben keinen Fehler auslösen. Aus diesem Grund verfügt der Backup Prozess über ein "Missing Positiv Monitoring", d.h. bleibt die Bestätigung über ein erfolgreiches Backup aus löst dies ebenso ein Alarm aus. Diese Alarme brauchen allerdings etwas länger, da bei zu kurzen Intervallen es zu häufig zu Fehlalarmen kommt.

Dieser Alarm erreichte mich am Flughafen kurz vor dem Einsteigen ins Flugzeug auf dem Weg in den Urlaub. Bis hierhin ist das alles noch kein Problem, wenn nicht zwei weitere absolut unwahrscheinliche Ereignisse hinzu gekommen wären.

Bevor ich am Zielort aus dem Hotel eingreifen konnte führte die Strato eine Stromabschaltung für Wartungsarbeiten im Rechenzentrum durch. Das ist ein Ereignis, das vielleicht einmal in zehn Jahren vor kommt, eher seltener. Diese Stromabschaltung führte dazu, dass beide Festplatten im Raid 1 gecrasht sind. Es kommt durchaus häufiger vor, dass Festplatten, die über Jahre durchlaufen, nicht mehr hoch kommen, wenn man sie einmal vom Strom trennt. Ohne Trennung würden sie vermutlich Jahre weiter laufen. Dass aber gleich beide Platten so crashen ist ungewöhnlich.

Ich musste nun entscheiden, das Forum für Tage offline zu lassen, bis ich mit Hilfe von Mitarbeitern im Rechenzentrum in Berlin vielleicht Zugriff auf eine der Platten bekommen hätte oder das Forum mit dem letzten Stand vor dem Link Loop Problem wieder online bringen. Ich habe mich für die letzte Variante entschieden.

Nun zu der Frage wie hätte man das verhindern können? Nur durch ein SLA, ein Service Level Agreement mit garantierter Reaktionszeit. Die Reaktionszeit darf dabei nur so lange sein wie man maximal bereit ist, Datenverlust hinzunehmen. Solche SLAs sind nicht ganz günstig. Einen Ausfall dieser Art würde ich als "Once in a Lifetime" Ereignis bezeichnen. Ich habe in 30 Jahren IT Administration noch nie erlebt, dass so außergewöhnliche Umstände zusammen kommen.

Der Betrieb des Forums wird vollständig aus eigener Tasche bezahlt, Server, Lizenzen, Domains, Backupspeicher und unzählige Stunden an Arbeit. Es gibt so gut wie jeden Tag was zu tun, um das Forum spamfrei zu halten, DSGVO Anfragen zu beantworten oder andere administrative Aufgaben. Ein SLA für Extremereignisse ist da nicht realistisch. Das Forum ist unabhängig und läuft auch nicht auf Synology Hardware. In den letzten 15 Jahre gab es so gut wie keinen Ausfall. Es gibt vermutlich kaum jemanden hier, der sich an eine nennenswerte Downtime erinnern kann.

Um das Risiko für Hardware-Ausfälle zu reduzieren plane ich das Forum demnächst auf eine virtuelle Plattform umzuziehen. Ob das mit vertretbaren Kosten zu machen ist, ist noch nicht ganz klar. Die Anforderungen an die Rechenleistung sind nicht ganz gering. Wir werden sehen.

AndiHeitzer · 13. Okt. 2021

Hallo Marc, vielen Dank für die Info!

Da war das Timing echt genial, scheint Murphy vollen Einsatz gezeigt zu haben.

Ansonsten wünsche ich nun noch einen schönen und ruhigen (Rest-)Urlaub ?

himitsu · 13. Okt. 2021

Sowas mit dem Backup kenn ich auch grade ... echt blöd, wenn da die Mailbenachrichtigungen zufällig auch grade nicht funktionieren.

Ich kenne noch ein anderes Forum, wo jemand seit fast 20 Jahren es quasi selbst bezahlt (abgesehn von inzwischen etwas geldlicher/händischer Hilfe Einiger)
und wo es im Forum garkeine Werbung gibt ... hier gibt es ja auch fast nichts (praktisch fast keine Banner zu sehn).

Mal aus Interesse, was hatte es mit trilogic auf sich? War ja kurz deren Loginfenster hier zu sehn.
Hätte schon vermutet das ist der Hoster und da dessen Domain auch tot ist ...........

RAID 1 .... sieht'e ... das nächte Mal ~~RAID 6~~ RAID 666

Kennst nicht die Futuramafolge mit dem Öltanker?
Alle 6000 Hüllen gebrochen ... hätte man doch 6001 Außenhüllen gebaut.

RichardB · 13. Okt. 2021

Höchster Respekt!!!!!
Das Szenario, das Du da beschreibst, ist so unwahrscheinlich, wie ein Sechser im Lotto.
Und ein SLA als nicht ganz günstig zu bezeichnen, ist eine krasse Untertreibung.

Die Schnelligkeit, mit der das Forum wieder online war, ist nach so einem Crash einfach bewundernswert. Und dass jetzt ein paar Posts fehlen, ist denke ich, durchaus verschmerzbar.

stefann42at · 13. Okt. 2021

Alle Achtung

Sowas komplett aus eigener Tasche zu finanzieren und zu administrieren ist sicherlich ein enormer Aufwand - nicht schlecht. Hab selbst ein paar Projekte/Websites am Laufen, die ich komplett selbst am Laufen halte - zwar nicht solch aufwendige, wie dies hier, aber eben selbst… Gratulation erst mal für das Wiederauferstehen (?) und weiter so…

peterhoffmann · 13. Okt. 2021

Serverausfall hin oder her... so was passiert, hier sogar in 3er Kombination von einem Backupproblem, Steckerzieher und Crash gleich zweier Speichermedien.

Was mir aber gut gefallen hat => Die offenen und klaren Worte.

Danke.

Tommes · 13. Okt. 2021

peterhoffmann schrieb:
Was mir aber gut gefallen hat => Die offenen und klaren Worte.

Das kann ich so unterschreiben.

Nach so einem Vorfall hast du dir deinen Urlaub aber auch redlich verdient

@Marc

Kurt-oe1kyw · 13. Okt. 2021

Danke @Marc für die Infos und das Wiederherstellen vom Forenbetrieb trotz Urlaub!
Aber jetzt genieße deine Urlaubszeit und mach wirklich Urlaub ohne Gedanken an IT Probleme, auch wenn ich jetzt schon weiß das du das nicht schaffen wirst. Das Abschalten der Gendanken an IT meine ich damit, nicht das es Mißverstanden wird.

Marc · 13. Okt. 2021

Noch ein kleines Update: Nach stundenlangen Hardwarechecks konnte ich Zugriff auf das letzte Backup unmittelbar vor der Stromabschaltung bekommen. Jetzt ist das Forum allerdings einen Tag weiter gelaufen und mit dem Einspielen dieser Version würden alle Beiträge von heute verloren gehen. Ich habe offen gesagt nicht damit gerechnet, an diese Version nochmal ran zu kommen, sonst hätte ich das Forum noch einen Tag zu gelassen. Ich gehe davon aus, dass ich die verlorenen Beiträge einspielen kann, aber da ist Handarbeit auf der Datenbank gefragt, das geht nicht automatisch und das kann ich nicht einfach so von unterwegs machen. Wenn ich zurück bin werde ich mich da ran machen. Datenverlust ist sowas was ich überhaupt nicht leiden kann ;-)

heavy · 14. Okt. 2021

Ich kann mich an einen Serverausfall erinnern der auch drei Tage dauerte (ui war das war damals echt schlimm für uns) was sich aber seit dem vor allem gebessert hat ist die Anschließende Kommunikation was mit ein Grund ist warum ich dem Forum jetzt seit fast 10 Jahren die Treue halte.

himitsu · 14. Okt. 2021

Wenn nicht grade wer im Urlaub wäre ...

Die neuen Änderungen sind ja weniger, da hätte man bestimmt damit leben können, das Forum jetzt nochmal kurz stillzulegen, das Backup einzupielen und dann die neuen Posts in den alten Stand einzufügen.

Schade eigentlich.
Es gibt ja schon seit jahrzehnten Foren und öfters mal ist schon sowas passiert.
Da hätte es genug Zeit gegeben, dass die Entwickler sowas bereits eingebaut haben könnten, dass man Posts, neue User usw. in einem begrenzten Zeitraum aus einem Backup importieren kann.
Aber neee

Hallern · 16. Okt. 2021

Hui, hatte mich am 11.10 hier registriert, meinen ersten Post abgeschickt, eine Antwort (@Synchrotron ) erhalten aber nicht mehr lesen können.
Hatte mich dann am 13.10 wieder neu angemeldet, aber erst heute meine Mails zur Freischaltung erhalten.

Werde dann später nochmal meinen Thread ins Forum stellen.

Grüße

Marc · 17. Nov. 2021

An der Seite wurden heute einige Änderungen vorgenommen, Updates Backend / Frontend, etc und die verlorenen Beiträge vom Serverausfall sind wieder da. Ganz unten gibt es ein eigenes Restore Forum dafür. Von da müssen sie neu einsortiert bzw. mit bestehenden Threads gemerged werden. Das werden wir nach und nach machen.

Es gibt aber noch eine große Änderung. Wer findet sie? Ansonsten wird es bald ein Mitteilung dazu geben

Wenn was nicht funktioniert bitte melden. Am Backend wurde viel verändert.

himitsu · 17. Nov. 2021

Ich glaub das dritte Pixel da links ist anders.

Hab ganz unten, im Blauen, nach dem Forum gesucht.

Und, wie war der Urlaub?

Marc · 17. Nov. 2021

Alle zurück gespielten Beiträge, die zu bestehenden Threads gehören wurden in diese einsortiert. Die Threads, die jetzt noch im Restore-Forum stehen sind eigenständige Threads.

Jetzt bräuchte ich mal eure Hilfe, sonst bin ich da ewig dran. Schaut euch die Threads bitte mal an und meldet diese mit dem Vermerk, in welches Forum sie gehören. Dann verschiebe ich sie dahin. Wenn ein paar mitmachen und jeder ein paar Threads meldet sind wir da schnell durch.

AndiHeitzer · 17. Nov. 2021

Marc schrieb:
Wenn ein paar mitmachen und jeder ein paar Threads meldet sind wir da schnell durch.

Wäre ich dort in den Themen beteiligt gewesen, hätte ich schon helfen können.

Marc · 17. Nov. 2021

Einfach kurz in einen Thread einlesen und schauen wo er hin passt. Das wäre eine große Hilfe, um die Fäden schnell einzusortieren.

AndiHeitzer · 17. Nov. 2021

Marc · 17. Nov. 2021

Super, besten Dank. Die Threads sind verschoben.

plang.pl · 17. Nov. 2021

Serverausfall

Administrator

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Administrator

Benutzer

Benutzer

Benutzer

Administrator

Benutzer

Administrator

Benutzer

Administrator

Benutzer

Administrator

Benutzer

Kaffeautomat