DS216j Speicherpool abgestürzt - die verarschen einen doch oder?

BiAir

Benutzer
Mitglied seit
24. Jan 2021
Beiträge
10
Punkte für Reaktionen
1
Punkte
3
DS216j Speicherpool abgestürzt - die verarschen einen doch oder?

Hey Community,
ich bräuchte da nochmal eure Expertise und nen Ratschlag. Bin schon sehr gespannt, was ihr von meiner Geschichte haltet... und ich dank schonmal in Voraus, dass ihr euch die Mühe macht.


Vor ein paar Tagen hatte ich mich, da ich eher ein Neuling bin, dank euch schon informiert, was zu tun wäre, wenn ich meine
DS216j von 2x 4 TB WD Red WD40EFRX (4jahre alt, Schreibweise CMS, mit etwa 1200 Betriebsstunden) austausche, da ich davon ausging, dass 4 Jahre schon
recht alt sind und ich die Platten upgraden wollte. Man empfahl mir, die Platten zu behalten. Somit alles gut... dachte ich.


Aber der Teufel schläft ja bekanntlich nicht... einen Tag später meldet mir meine Platte 1 zu zwei unterschiedlichen Zeitpunkten I/O Fehler. Grundsätzlich passte alles. NAS "funktionierte" - und mehr hätte ich schon nicht beurteilen können.
Das unsichere Gefühl blieb.


Somit bin ich los - und habe mir eine neue 4 TB WD Red "PLUS" WD40EFRX geholt um die Platte 1 damit zu ersetzen. Angeblich baugleich mit der alten "normalen" WD40EFRX. Beide CMS.

Also:
- Disk Station abgeschaltet
- Platte 1 ausgetauscht...
- Disk Station eingeschaltet - und ins WebInterface geguckt.
- System erkannte ein fehlerhaftes Raid - logisch - und bot den Reparaturmode an. Gesagt getan... alles super. But...

...nach etwa 5min Laufzeit "brannte" die Diskstation förmlich... lauter, bedrohlicher Warnton, blinkendes LED des LANs, blinkendes oranges Licht auf -
und jetzt kommts - auf Platte 2! Rein ins WebUI -> mit der Meldung - Speicherpool "abgestürzt", Platte 2 "abgestürzt"
Und das auf der Platte 2, die bis Dato super einwandfrei lief und keinerlei Probleme machte.

(Fotoanhang Pic1.jpg)
Pic1.jpg

(Fotoanhang Pic2jpg)
Pic2.jpg

Dann hatte ich Panik und habe zumindest mal Platte 1 wieder rausgenommen, in der Hoffnung, dass sich das System stabilisiert.
Neustart - aber es blieb der gleiche Fehler auf Platte 2 - Status "abgestürzt".
(Fotoanhang Pic3.jpg)
Pic3.jpg
(Fotoanhang Pic4.jpg)
Pic4.jpg




Und das bei keiner vorliegenden Datensicherung... *kopftisch*

Aber... ich konnte alle Daten sichern... trotz nur der einen Platte 2 im System, mit schöner Fehlermeldung und dem Alarm Ton, hatte ich über das LAN 100%igen Zugriff auf alle Daten und konnte diese auf meinen Windows Rechner backup'en. (gibt's das Wort?)

Daten wurden am Ziellaufwerk nochmals Checksum kontrolliert. Alles da. Fehlerfrei.
(Und da kommt man sich schon mächtig verarscht vor... von WD und Synology... (ist ja auch kaum zu glauben, oder...)


So... und nun die Frage. Was zur Hölle soll ich jetzt machen? Oder besser... die Platte 2 ist ja mal sicher nicht defekt... die bekommt man ja wieder irgendwie in Gang oder?

Vielen Dank, dass ihr bis hierher gelesen habt. :)
 

Kurt-oe1kyw

Benutzer
Sehr erfahren
Mitglied seit
10. Mai 2015
Beiträge
9.139
Punkte für Reaktionen
1.798
Punkte
314
Nun das mit dem Backup ist ja gsd noch mal gut gegangen.
Ich meine mich leise Erinnern zu können das hier im Forum so mind. 1 bis 2 x der Hinweis zu finden ist:
Bitte macht unbedingt IMMER ein echtes externes Backup auf ein separates Medium eurer Daten. Nämlich genau für den Fall wie es jetzt bei dir ist/war.
Erklärung:
Speicherpool weg / oder Volume weg = DATEN WEG! Die Daten liegen Diskstation > Speicherpool > Volume > gemeinsamer Ordner > deine Ordner > deine Daten!

Die Betriebsdauer sagt nichts über den Zustand der HDDs aus, ich tausche die meistens nach ca. 30.000 Stunden da sie bei mir 24/7 ohne Ruhemodus durchlaufen.
ABER die SMART Werte sagen dir den Zustand deiner HDDs.
Ich gehe davon aus, dass man da schon lange vorher etwas gesehen hätte, jetzt durch den Stress mit den neuen Platten ist es schlagend geworden.
Vergleich:
Du siehst im Auto an der Tankuhr das die Anzeige knapp vor Reserve steht, alles läuft, alles ist gut. ABER du weisst jetzt schon dass du keine 600km mehr kommst.
Schaust du nicht auf die Tankuhr dann reagierst du erst wenn der letzte Tropfen Sprit verbrannt wurde, der Motor stottert und du langsam ausrollst.
SMART Werte = Tankuhr, Alarmmeldung HDD = letzter Tropfen Sprit.

Den nervenden Alarmton kannst du im DSM abschalten, das repariert zwar die DS nicht aber schont die Nerven:
DSM > Hauptmenü > Systemsteuerung > Hardware&Energie > Register "Allgemein" > ca. in der Mitte auf die Schaltfläche "Signalton aus" anklicken.
Das schaltet nur den jetzt gerade aktiven Alarmton für dieses Ereignis ab, es wird nicht generell der Alarmton für immer abgeschaltet.
Darüber wird dir auch der Grund für den Ton angezeigt. Normalerweise steht da "Ohne" und die Schaltfläche ist hellgrau/inaktiv.
In deinem Fall wäre da vermutlich gestanden "Volume abgestürzt" usw

Bitte verlasst euch auch niemals auf die Anzeige beim Status "Alles in Ordnung" (grün). Der wird erst rot und zeigt Fehler wenn die HDD sich nicht mehr dreht oder qualmt! Das ist ernst gemeint. Wenn die Anzeige kommt und rot wird, dann ist schon alles vorbei.

Schönes Beispiel:
Erweiterter Test mit neu gekaufter HDD, ID7 = 327682 Fehler! Da steht normalerweise NULL 0
Trotzdem zeigt DSM an in grüner Schrift links Status "Normal" grün, Zustand "Normal" grün, siehe Bild:

wd_red_seek_error_20h.jpg

Die HDD ist unbrauchbar, trotzdem wurde sie noch weitere 22 Stunden von der Diskstation als "Normal" angezeigt und Betrieben,
erst als nach insgesamt 42 Stunden gar nichts mehr ging und ID 7 auf eine irre Anzahl angestiegen ist hat DSM diese HDD als "Fehlerhaft" bezeichnet:

wd_red_10tb_seek_error.jpg
Das war aber erst, nachdem wirklich gar nichts mehr ging.
Die HDD war also DOA (Tot bei Auslieferung) wurde vom Händler vor Ort sofort und anstandslos ausgetauscht auf eine andere.
Das ist mein Vergleich mit der Tankuhr im Auto oben.
Schon nach 20 Stunden und dem großen Test war klar, diese HDD ist unbrauchbar.
 
Zuletzt bearbeitet:
  • Like
Reaktionen: geimist und blurrrr

BiAir

Benutzer
Mitglied seit
24. Jan 2021
Beiträge
10
Punkte für Reaktionen
1
Punkte
3
Sodala... ich melde mich mal mit einem Update zurück.

Vielen Lieben Dank zu deiner Zusammenfassung Kurt. Ich habe es nun verstanden. Den ersten Teil zumindest auf die Art, dass ich recht blauäugig ohne Datensicherung solche Maßnahmen ergriff. Ich hab's verstanden. Und vermutlich auch die Nachwelt, die hier mitliest...

Den Signalton abzustellen war nach kleiner Recherche auch leicht möglich. Ansonsten wäre der persönliche Stresslevel zu hoch. Dennoch danke für die Erklärung oben.

Der interessante Teil sind deine angehängten Bilder. Ich konnte mit der Tabelle meiner Smart Werte nichts anfangen.
Aber deine oben angefügten öffnen einem die Augen und zeigen recht gut, was mit Festplatten so los sein kann. Danke dafür.

Ich habe nun meinerseits einen erweiterten Smart Test auf die abgestürzte Platte 2 laufen lassen, mit dem folgenden Ergebnis.
Auch wenn ich nun selbst einen Überblick habe, wäre ich für eine kurze Einschätzung dankbar.

(Anmerkung am Rande. Ich hatte gestern nach dem Start der Smart intensiv Überprüfung meinen Rechner abgeschaltet und nach dem neuen Login heute über das Web Admin Interface kein Feedback der Diskstation erhalten. Ich erwartete zumindest ein "Test abgeschlossen -> Ergebnisse hier... oder so. Somit bin ich in den Smart Tab der Platte gewechselt - mit unten gezeigtem Ergebnis. Das ist doch nun das aktualisierte oder?)
(Fotoanhang Pic5.jpg)
Pic5.jpg

Sieht so aus, als wäre ID1 im A.... aber was bedeutete die Zahl. Ist das viel... wenig.. tot? Bald tot?

Vielen Dank im Voraus - und schönen Sonntag.
 

BiAir

Benutzer
Mitglied seit
24. Jan 2021
Beiträge
10
Punkte für Reaktionen
1
Punkte
3
Noch ein Nachsatz von mir.

Aktuell läuft auf Platte 1, welche ich nun wieder zurück eingebaut habe ein erweiterter Smart Test - dachte das wäre eine gute Idee auch hier genauer zu überprüfen - allerdings nun schon 2 Tagen!
Steht seit 28 Stunden bei 90%. Und das UI tut so als würde es noch arbeiten. (dieses eckige spinning symbol)

Macht das noch Sinn es weiterlaufen zu lassen? Oder ist da schon ein schwerer Fehler geschehen?
 

Schwarte

Benutzer
Contributor
Mitglied seit
02. Mrz 2018
Beiträge
117
Punkte für Reaktionen
18
Punkte
24
Lass es bitte fertig laufen, poste hier den Screenshot und tausche dann Platte 2.
Die FP2 war schon am schwächeln, daher der Absturz. Ein Rebuild liest ja zwangsläufig alles, daher treten dann auch Fehler in Erscheinung.

Grade noch geschafft, beim nächsten Boot wäre FP2 evtl gestorben. Nun, bei 2 tauscht man immer die falsche zuerst :LOL:
Murphys Law...
 

BiAir

Benutzer
Mitglied seit
24. Jan 2021
Beiträge
10
Punkte für Reaktionen
1
Punkte
3
Update von mir:

Das dauert mir nun langsam zu lange. Sind schon bald 96 Stunden!
Wäre es nicht geschickter, die abgestürzte Platte 2 ausbauen und nur alleine mit Platte 1 zu überprüfen? Vielleicht sind die sich irgendwie im Wege.

Pic7.jpg
 

Syno-OS

Benutzer
Mitglied seit
23. Jun 2020
Beiträge
361
Punkte für Reaktionen
64
Punkte
28
Ist so gut wie tot.
ID1, ID197 und ID200 sind alle sehr mies.

HDD tauschen.
haha, 5 Sektoren ist noch nicht tot, aber kann halt schon dazu führen dass Dateien beschädigt werden -> Volume abgestützt ist dann ein Fall, DSM startet nicht mehr ein anderer oder nur Dateien sind beschädigt, dies merkt man dann nur bei einem BTRFS mit Checksummer zum Prüfen der Korrektheit der Dateien -> ein Dateisystemcheck wird fällig. Backup sollte selbstverständlich sein...
Wenn der Wert aber steigt sollte man die Festplatte doch mal ersetzen. Bei so einer neuen Festplatte eher ersetzen, die soll doch noch paar Jahre halten....
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
Das dauert mir nun langsam zu lange.
Das kann ich verstehen.
Sind die Werte noch mal angestiegen?

5 Sektoren ist noch nicht tot
Von den "nur" 5 Sektoren abgesehen, zeigen ID1 und ID200 sehr hohe Werte.
Die HDD ist tot. Speziell nach so einer kurzen Laufzeit. Damit ist kein Blumentopf mehr zu gewinnen. Sie sollte ja eigentlich noch Garantie haben, sprich tauschen.
 

BiAir

Benutzer
Mitglied seit
24. Jan 2021
Beiträge
10
Punkte für Reaktionen
1
Punkte
3
haha, 5 Sektoren ist noch nicht tot, aber kann halt schon dazu führen dass Dateien beschädigt werden -> Volume abgestützt ist dann ein Fall, DSM startet nicht mehr ein anderer oder nur Dateien sind beschädigt, dies merkt man dann nur bei einem BTRFS mit Checksummer zum Prüfen der Korrektheit der Dateien -> ein Dateisystemcheck wird fällig. Backup sollte selbstverständlich sein...
Wenn der Wert aber steigt sollte man die Festplatte doch mal ersetzen. Bei so einer neuen Festplatte eher ersetzen, die soll doch noch paar Jahre halten....
Von den "nur" 5 Sektoren abgesehen, zeigen ID1 und ID200 sehr hohe Werte.
Die HDD ist tot. Speziell nach so einer kurzen Laufzeit. Damit ist kein Blumentopf mehr zu gewinnen. Sie sollte ja eigentlich noch Garantie haben, sprich tauschen.
Danke Syno & Peter. Das Thema ist für mich schon erledigt. Daten sind gesichert und die Platte 2 wird ersetzt. Das Ding ist 4,9 Jahre alt und hat lt. WD Kundensupport seit 1,9 Jahren keine Garantie mehr. Ist halt so. (Leider nur 3 Jahre Garantie - Kaufdatum war der 29.03.2016)

Das kann ich verstehen.
Sind die Werte noch mal angestiegen?
Die Frage finde ich schon interessanter. Es geht mit in dem Fall nicht mehr um Platte 2, deren 5 Sektoren tot sind - sondern um Platte 1, welche nun schon seit 96 Stunden den Intensivtest fährt. (ich nahm ja an, dass möglicherweise Platte 1 nur stört... und deshalb der derzeitige Test für Platte 2 so lange braucht)

Ob die Werte angestiegen sind, kann ich garnicht sagen... oder meinst du, die verändern sich auch während des Tests? Ich ging davon aus, das der Test mal fertig durchlaufen muss.

Hier die "letzten" Werte der Platte 1:
Pic8.jpg

Schaut ja eigentlich gut aus...
 

peterhoffmann

Benutzer
Sehr erfahren
Mitglied seit
17. Dez 2014
Beiträge
6.057
Punkte für Reaktionen
1.855
Punkte
254
Wie synfor schrieb:
ID1 ist auffällig, ID 197 und ID 200 sind aber sauber. Solange ID1 nicht weiter ansteigt, kann man (muss man aber nicht) über eine weitere Nutzung nachdenken.

Laufzeit deiner HDDs:
Schon schade, dass beide nach 1400 Stunden solche Probleme machen. :(

Smart-Werte:
Die Werte sind immer aktuell. Sobald die HDD z.B. einen Raw Read Error entdeckt, bekommt ID1 einen Wert (+1) hinzugefügt. Das kann im laufenden Betrieb wie auch während eines Smarttestes sein.

------------------------------------------------------------------

Mein Ansatz für HDDs und deren Smartwerte:
Ich habe mir ein zwei kleine Scripte geschrieben, die die HDDs überwachen. Dafür muss man sich mit der Konsole (Stichworte: SSH und Putty) etwas auskennen.
Script 1: Speichern der Smartwerte
Das Script speichert einmal monatlich die Smartwerte jeder HDD im System als Textdatei ab. Bei Bedarf kann ich so die Entwicklung nachvollziehen.
Das Script ist nur ein kleiner Einzeiler (pro HDD):
Code:
smartctl -a -d ata /dev/sda > /volume1/deingemeinsamerOrder/unterordner/sda_`date +%Y%m%d`.txt
sda muss jeweils angepasst werden.
Script 2: Checken auf Veränderung
Kritische Werte (z.B. ID1, ID197 und ID200) werden täglich mehrmals ausgelesen und mit eingestellten Daten überprüft. Bei Veränderungen bekomme ich eine Nachricht.
Dieses Script zieht sich die Smart-Werte, extrahiert in der jeweiligen Zeile den Wert, vergleicht diesen Wert (if-Abfrage) mit einer Vorgabe und schickt bei Veränderungen eine Nachricht (E-Mail bzw. Telegram)

Beide Scripte müssen an das System angepasst werden, sprich sie sind kein Click&Go, sondern man muss sich schon etwas einarbeiten und speziell beim zweiten Script die Zusammenhänge verstehen und anpassen können. Daher habe ich das Script hier erst mal nicht öffentlich gemacht. Außerdem ist mein Script auch recht Quick&Dirty, sprich ein Progger würde mir das um die Ohren hauen. Ich würde sagen: Egal, es funktioniert. ;-)
 
  • Like
Reaktionen: the other

Syno-OS

Benutzer
Mitglied seit
23. Jun 2020
Beiträge
361
Punkte für Reaktionen
64
Punkte
28
Stören des Festplatten Test, die in der Festplatte läuft und nur durch das DSM überwacht wird? nicht wirklich. Meistens ist dann der Controller auf der Festplatte hin, den kann dann auch nicht mehr die SMART Werte ändern, daher helfen euch dann auch keine SMART Analysen....Generell wenn der Festplatten Controller den Test nicht mehr beenden kann, ist der Festplatte nicht mehr zu trauen -> ersetzen...
 

BiAir

Benutzer
Mitglied seit
24. Jan 2021
Beiträge
10
Punkte für Reaktionen
1
Punkte
3
Soooo... ein letztes Update für die Nachwelt.

Du hattest recht mit deiner Einschätzung Syno-OS. Die FP1 lief nun etwa nochmal 8 Tage und brachte kein erweitertes Smart Ergebnis zustande. Ich musste abbrechen... und diesmal blieb die Platte draußen. (Kurzer Smart Scan funktionierte aber immer)
Interessanterweise verschlechterte sich der Wert bei beiden Platten sehr rasch bei ID1 auf etwa 2500. Und ID 200 ging ebenfalls in die Höhe.

Ich habe nun beide Platten getauscht und das System läuft wieder ordentlich. Backup rennt auf einer weiteren externen USB Platte.

Danke auf für den Tipp peterhoffmann... werde mir mal ssh und putty ansehen. Ich hab Freunde, die sind hauptberuflich Devs. ;)
Danke an alle für den guten Support.
 
  • Like
Reaktionen: ctrlaltdelete


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat