Raid ist kein Backup!

blurrrr

Benutzer
Sehr erfahren
Mitglied seit
23. Jan 2012
Beiträge
6.204
Punkte für Reaktionen
1.104
Punkte
248
Da ich das ganze jetzt am Wochenende hatte (nicht bei einem meiner Systeme), nochmal eine kleine anschauliche Story zum Thema:

Server, 2 HDDs im Raid1 (Spiegelung zwecks "Verfügbarkeit").

Nach einem Stromausfall kommt der Server nicht mehr richtig hoch. Beim Start des Servers sieht man schon die Meldung:
HDD1 - Smart-Errors
HDD2 - Ok

Raid-Status: Rebuild

Jut denkt man sich, ist vermutlich die Platte mit dem Smart-Fehlern weggeknallt und das Ding synct grade wiede die Platten. Mhm... Komischerweise hat der Sync der 2TB-HDDs auch irgendwie direkt 3 Tage gedauert. Wie dem auch sei... irgendwann war der Sync dann fertig. Server neugestartet, kommt nicht wirklich hoch, eine Platte knattert wie bescheuert rum (die erste, die mit dem Smart-Fehlern). Einfach mal die defekte Platte gezogen, System fährt sauber nur mit der zweiten Platte hoch. Jut, Ausmachen, schlafen gehen. Wollte dann am nächsten Tag dann "noch kurz" ein zusätzliches Backup der Daten ziehen. Server fährt nicht mehr hoch. Zweite Platte "tot" (die, die vorher noch völlig in Ordnung war - angeblich). Nun war eine Platte ganz hin und eine Platte voll mit Fehlern... Tjo, da war dann nix mehr zu machen... Ausser:

2 neue Platten rein und Backup wieder einspielen. Ist vielleicht doch besser, wenn man ein Backup zur Hand hat, gelle? (... oder 2 oder 3) ??
 

bob rooney

Benutzer
Mitglied seit
15. Nov 2020
Beiträge
134
Punkte für Reaktionen
24
Punkte
24
..und die Moral von der Geschichte
Warum hast du nicht gleich eine neue HDD eingesteckt und über Nacht das System mit nur einer Platte stehen lassen.
Streng genommen ist dir also zwar das Raid1 verkackt aber die Funktion war korrekt. Eine Platte war noch ok.
Diese hast da dann nicht im Raid 1 betrieben und Murphy hat gnadenlos zugeschlagen.
;)
Aber im Ernst.
Nix ist wichtiger als ein ordentlichen Konzept für ein Backup.
Murphy schlägt immer dann zu wenn man es nicht gebrauchen kann und Platten streben nie direkt nach einem Backup sondern immer kurz davor und somit mit entsprechendem Verlust.
 

blurrrr

Benutzer
Sehr erfahren
Mitglied seit
23. Jan 2012
Beiträge
6.204
Punkte für Reaktionen
1.104
Punkte
248
Mitten im Rebuild fang ich nicht an Platten zu ziehen und schon garnicht, wenn der Raidcontroller nicht vermeldet, WELCHE Platte grade wieder aufgebaut wird ?

Eine Platte war noch ok.

Genau, "war", bis diese dann spontan beschlossen hat, einfach garnicht mehr zu funktionieren, aber wen wundert es nach knapp 10 Jahren 24/7-Betrieb... (sag nix... nicht meine Entscheidung ;)). Kann man auch sagen was man will - in der IT ist Murphy definitiv der alltägliche Begleiter - keine Frage :rolleyes:?
 
  • Like
Reaktionen: bob rooney

Puppetmaster

Benutzer
Sehr erfahren
Mitglied seit
03. Feb 2012
Beiträge
18.991
Punkte für Reaktionen
628
Punkte
484
Mitten im Rebuild fang ich nicht an Platten zu ziehen
Aber du hast die Kiste doch ausgemacht? Hättest du doch stattdessen auch den Rebuild mit einer frischen Platte anstoßen können. ;-)
 

bob rooney

Benutzer
Mitglied seit
15. Nov 2020
Beiträge
134
Punkte für Reaktionen
24
Punkte
24
Mitten im Rebuild fang ich nicht an Platten zu ziehen und schon garnicht, wenn der Raidcontroller nicht vermeldet, WELCHE Platte grade wieder aufgebaut wird ?
Ich hätte es nicht anders gemacht....
..... wie schon geschrieben ohne Backup bist du am A****
.
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254

blurrrr

Benutzer
Sehr erfahren
Mitglied seit
23. Jan 2012
Beiträge
6.204
Punkte für Reaktionen
1.104
Punkte
248
...Kiste doch ausgemacht? Hättest du doch stattdessen...
Der Plan war eigentlich die Geschichte einfach mit einer Platte laufen zu lassen, da die Kiste vermutlich sowieso nächste (oder ggf. noch diese) Woche "entsorgt" wird... No risk, no fun!... Ausserdem: Direkt "nochmal" einen Rebuild? So wie sich das mit der 2. HDD verhalten hat, wäre die dann vermutlich eh mitten im 2. Rebuild verreckt und dann wäre auch Essig gewesen, also so oder so... "verloren" ?

Finde es halt nur wieder so ein richtig schönes Beispiel, da die 2. HDD dann auch noch direkt den Geist aufgegeben hat und somit eben als "letzte" Option das Backup da ist (hoffe, dass das noch einigen zu denken gibt - deswegen schrieb ich den Beitrag auch ??).
 

synfor

Benutzer
Sehr erfahren
Mitglied seit
22. Dez 2017
Beiträge
9.012
Punkte für Reaktionen
1.613
Punkte
308
Also bei 10 Jahre alten Platten ist beim Rebuild mit Ausfall weiterer Platten zu rechnen. Ich hätte schon den ersten Rebuild sofort unterbrochen, beide Platten ersetzt und das Backup benutzt. Ein Rebuild mit einer defekten Platte ergibt nämlich keinen Sinn. Hint: Wenn ein Rechner im BIOS-Screen schon S.M.A.R.T.-Errors meldet, ist die Platte nicht nur auffällig, die hat bei mindestens einem Wert den Grenzwert überschritten.
 

Tommes

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
26. Okt 2009
Beiträge
9.667
Punkte für Reaktionen
1.564
Punkte
314
Ist vielleicht doch besser, wenn man ein Backup zur Hand hat, gelle? (... oder 2 oder 3) ??
Und falls man weder 3 noch 2 oder zumindest 1 Backup zu Hand hat, gilt die Devise...

Kein Backup?

Kein Mitleid!
 

blurrrr

Benutzer
Sehr erfahren
Mitglied seit
23. Jan 2012
Beiträge
6.204
Punkte für Reaktionen
1.104
Punkte
248
@synfor Du musst bedenken, dass die "neuen" Platten a) nicht für den Server bestimmt waren und b) auch eine gute Stunde Autofahrt entfernt waren. Insofern war das erste mal das Mittel der Wahl, hätte der Server noch länger laufen sollen, hätte man sicherlich anderweitig Platten bestellt. Dazu kommt auch der Umstand, dass das Backup von "morgens 2 Uhr" war, der Ausfall aber am Abend passiert ist und somit 1 Arbeitstag auch komplett weg gewesen wäre (deswegen hab ich - nebst Restore vom Backup - auch nochmal die Nutzdaten weitestgehend gesichert, damit der aktuelle Stand gewahrt bleibt).

Weiss ja nicht, ob Du auch beruflich in dem Umfeld unterwegs bist, aber ich kann Dir eins mit Gewissheit sagen: Ca. 5% aller kleinen bis mittelständischen Unternehmen regeln das "unter aller Sau". Von "ich hätte aber" kannste Dir (leider) genau "garnichts" kaufen, weil den Kunden das dann i.d.R. schlichtweg zu teuer ist. Das läuft dann ungefähr so:

"1/2 Festplatten ist Schrott und muss ersetzt werden, besser direkt beide"
"Aber warum denn, sind doch extra 2, da läuft doch noch eine!?"
"Wenn die andere auch noch ausfällt, ist halt Essig..."
"Nagut, aber nur die EINE!"
"Es wäre aber sinnvoller, wenn direkt beide getauscht werden, sind beide schon ziemlich alt, da wird der nächste Ausfall nicht lange auf sich warten lassen"
"Ja ne, das wird alles viel zu teuer, höchstens erstmal eine und wenn dann die andere ausfällt, kann man ja nochmal gucken..."

<... kurze Zeit später beginnt das Gespräch wieder von vorn...>

Denke, damit wäre das auch geklärt... Bei manchen Leuten musste halt einfach extremst "low budget" denken, ganz egal wie "sinnvoll" (oder eben nicht) es ist ?
 
  • Like
Reaktionen: peterhoffmann

synfor

Benutzer
Sehr erfahren
Mitglied seit
22. Dez 2017
Beiträge
9.012
Punkte für Reaktionen
1.613
Punkte
308
Nun da hätte man aber trotzdem gleich beide Platten wechseln und während das Restore läuft, sich um die Rettung der Daten von der noch intakten Platte kümmern können oder?

hätte der Server noch länger laufen sollen, hätte man sicherlich anderweitig Platten bestellt.
Moment, da hätte man sich doch aber auch gleich auf das Retten noch ungesicherter Daten beschränken können. Dazu hätte man gar keine Platte ersetzen müssen. Da brauchst dann doch nur ausreichend Platz für die zu rettenden Daten.
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
@synfor
Im Nachgang hätte man wahrscheinlich vieles besser machen können. Nur das weiß man ja nicht vorher.

Da verreckt eine HDD, man hat ein Backup, zieht noch ein paar Dateien, wechselt die HDD, wirft dann einen Rebuild an und hofft, dass es gut geht. Das geht auch fünfmal gut, beim sechsten Mal ist man halt dran.

Interessant finde ich, dass die HDDs 10 Jahre alt waren und dann sogar zur gleichen Zeit verrecken. Das zeigt einem wie "gleich" die HDDs hergestellt werden und das man mehr darauf achten sollte die HDDs bzw. das Alter (Laufzeit) der HDDs zu mischen.
 
  • Like
Reaktionen: blurrrr

blurrrr

Benutzer
Sehr erfahren
Mitglied seit
23. Jan 2012
Beiträge
6.204
Punkte für Reaktionen
1.104
Punkte
248
Nun da hätte man aber trotzdem gleich

Ich merk schon, Du willst das nicht verstehen, ist ok. Lass Dir einfach nur gesagt sein bzw. geh davon aus, dass es nicht von mir ausging/an mir lag ;)

da hätte man sich doch aber auch gleich auf das Retten noch ungesicherter Daten beschränken können

Nein, hätte man nicht, da die Bereitstellung dieser noch in keinster Weise geklärt ist und man schlicht nichts "über's Knie bricht" (das sind meist die fatalsten Entscheidungen). So können die Leute erstmal "ganz normal" weiter machen. Ganz abgesehen davon, dass da auch noch ein Windows-AD mit drin hängt, das ist dann für die Userkonten eher weniger witzig.

Aber sei's drum, gibt halt solche und solche ... leider halt auch die, die abwarten bis es knallt. Wenn es denn interessiert - privat gebe ich da auch nicht soviel drum (hab eh alles doppelt und dreifach) - im RZ z.B. wird regelmässig getauscht, da brauch ich keine Überraschungen.
 

synfor

Benutzer
Sehr erfahren
Mitglied seit
22. Dez 2017
Beiträge
9.012
Punkte für Reaktionen
1.613
Punkte
308
Ich merk schon, Du willst das nicht verstehen, ist ok. Lass Dir einfach nur gesagt sein bzw. geh davon aus, dass es nicht von mir ausging/an mir lag ;)
Das war mir schon klar, dass da Kunde ohne Einsicht in die Notwendigkeiten Ursache für die Vorgehensweise war.

Nein, hätte man nicht, da die Bereitstellung dieser noch in keinster Weise geklärt ist und man schlicht nichts "über's Knie bricht" (das sind meist die fatalsten Entscheidungen). So können die Leute erstmal "ganz normal" weiter machen. Ganz abgesehen davon, dass da auch noch ein Windows-AD mit drin hängt, das ist dann für die Userkonten eher weniger witzig.
Heißt also, die Außerbetriebnahme war noch in der Planungsphase, der Server macht DC alleine und darf nicht ausfallen und das bei dem Alter. Da ist der Gau doch vorprogrammiert.

Mitten im Rebuild fang ich nicht an Platten zu ziehen und schon garnicht, wenn der Raidcontroller nicht vermeldet, WELCHE Platte grade wieder aufgebaut wird ?
Im Grunde ergibt da meiner Meinung nach nur das Ziehen und damit der Abbruch des Rebuilds Sinn.

Ein Rebuild mit der defekten Platte wird, wenn er denn überhaupt durchläuft, kaum von Dauer sein und wohl auch länger als mit einer neuen Platte brauchen. Man muss sie dann danach eh besser sofort ersetzen. Was dann einen erneuten Rebuild bedeutet, den man solch alten Platten besser gar nicht aussetzt.

Wenn der RAID-Controller die verkehrte Platte wieder aufbaut, ist das Kind eh schon in den Brunnen gefallen und ein Abbruch bedeutet dann Schadensbegrenzung.
 

blurrrr

Benutzer
Sehr erfahren
Mitglied seit
23. Jan 2012
Beiträge
6.204
Punkte für Reaktionen
1.104
Punkte
248
Ein Abbruch bedeutet nicht zwangsläufigerweise Schadensbegrenzung - mitunter läufts halt auch völlig aus dem Ruder und dann kannste Dir die Nächste mit irgendwelchem Recovery-Mist um die Ohren schlagen... darauf hätte ich dann mal so GAR keine Lust gehabt. Weisste, das is auch irgendwo ne Einstellungssache. Ich bin eigentlich jemand der immer versucht das Optimum für den Kunden rauszuholen (egal ob Minimal- oder Maximalprinzip und generell aus wirtschaftlich "sinnvoller" Sicht (allein das ist eigentlich schon ziemlich "dumm")), aber wenn man Jahre lang gegen Wände redet (bei diesem einem Kunden), lässt das halt auch irgendwann nach.

Da ist der Gau doch vorprogrammiert.

Jupp, aber - der Kunde "will" es so - machste nix - hab gebetet (geredet) wie blöde, aber hat nix geholfen.

Ganz ähnlich verhält sich das mit der Website (Joomla 1.6), Kunde zahlt schon seit zig Jahren für die uralte PHP-Version extra... Hab ich mir auch den Mund fusselig geredet, bringt alles nix.

Is halt so, wie wenn Du - trotz aller Warnungen vom Admin - immer volle Kanone gegen die Wand rennst und der Admin dann immer schützend die Hand dazwischen hält... irgendwann tut die Hand halt auch weh... Auch hier gilt das Motto: Lernen durch Schmerzen, ganz einfache Kiste.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat