S.M.A.R.T. "abnormal" - Festplatten austauschen? - was ist da los, wo ist das log?

Status
Für weitere Antworten geschlossen.

randfee

Benutzer
Mitglied seit
08. Apr 2010
Beiträge
1.070
Punkte für Reaktionen
3
Punkte
64
S.M.A.R.T. "abnormal" - Festplatten austauschen? - was ist da los, wo ist das log?

Hi,

meine DS410 läuft jetzt seit gut zweieinhalb Jahren ohne irgendein Problem durch. Hab immer mal den SMART Status überprüft (schnelltest) und nie was gefunden.
Nach dem Update auf DSM4.2 hab ich jetzt mal bei allen vier Platten den extended Test gemacht und bekam prompt bei zwei Platten die Meldung:
errors found, it is recommended to replace the hard disk
(s. Bild)

Anhand der SMART Info kann ich allerdings wirklich nicht ausmachen, was bei Platte 1 und 4 soviel schlechter sein soll als bei 2 und 3.

  • Gibt es nicht irgendwo detalliert den SMART Bericht, anhand dessen die Aussage oben getroffen wird?
  • Was würdet ihr machen? Wirklich Platten tauschen?
  • Gibt es Erfahrungen mit diesen Aussagen von DSM. Wie gesagt, die SMART Info unterscheidet sich eigentlich nicht sichtbar von Platte 2 und 3

Keine Bange, Backup hab ich (immer) :p

Danke & Grüße
Randfee



synology hdd errors found hdd4.png
DS410---SMART-problems.jpg
 
Zuletzt bearbeitet:

rauppe31

Benutzer
Mitglied seit
06. Jun 2011
Beiträge
2.734
Punkte für Reaktionen
0
Punkte
82
Also bei der ersten Platte ist der Fall klar. Die hat einen Offline Uncorectable von 4. Also 4 Sektoren, die nicht korrigiert werden können. Meine Empfehlung: Austauschen

Platte 2: Die hat einen Current_Pending_Sector von 2. Also zwei Sektoren, bei denen er noch nicht richtig weiss, was er damit machen soll. Die Platte wird wohl auch bald am sterben sein. Beobachte mal, wie sich das bei dieser HDD verändert.

Platte 3: Ist OK.

Platte 4: Diese hat einen erheblichen Wert von Current_Pending_Sector und Offline_Uncorectable. Diese Platte würde ich so schnell wie möglich austauschen.

Gute Erklärungen zu den SMART-Bezeichnungen findest du hier: http://de.hardware-wiki.org/wiki/S.M.A.R.T.
 

Frogman

Benutzer
Mitglied seit
01. Sep 2012
Beiträge
17.485
Punkte für Reaktionen
8
Punkte
414
Die Meldung wird auf die schwebenden Sektoren in Verbindung mit den Fehlern in der Rubrik "Offline uncorrectable" zurückzuführen sein. Gerade letzteres deutet auf mechanische oder Oberflächendefekte hin - da steigt die Gefahr eines Ausfalls deutlich an.

Edit: ups, rauppe war schneller und hat's perfekt ausgeführt :)
 

randfee

Benutzer
Mitglied seit
08. Apr 2010
Beiträge
1.070
Punkte für Reaktionen
3
Punkte
64
hm ok.

und warum werden die Sektoren nicht einfach als kaputt markiert? Sprich, formatieren und gut ist? Hätte jetzt eigentlich gedacht, dass macht ein gutes Dateisystem selber, oder verwechsel ich da was?
Versteht mich nicht falsch, wenn sie kaputt sind tausche ich sie gerne, aber ein paar defekte Sektoren, das war doch früher fast Standard? Warum ist das jetzt ein Tauschgrund?

... wills nur verstehen
 
Zuletzt bearbeitet:

Frogman

Benutzer
Mitglied seit
01. Sep 2012
Beiträge
17.485
Punkte für Reaktionen
8
Punkte
414
Das wären dann nur die "pending sectors". Wenn die offline-Korrektur nicht mehr möglich ist, deutet das wie gesagt auf mechanische Probleme hin wie zB. nach einem Headcrash o.ä.
 

randfee

Benutzer
Mitglied seit
08. Apr 2010
Beiträge
1.070
Punkte für Reaktionen
3
Punkte
64
Jetzt interessiert's mich aber doch genauer. Woher habt ihr die Info, dass das ein Hardware Defekt ist? Ich suche nebenbei danach und finde wirklich nicht viel klare Aussagen. Wenn der Fehler wirklich auf mechanische Beschädigung hindeutet verstehe ich die Bedenken, weil sich das schnell fortpflanzen kann

Wenn es einfach nur defekte Sektoren sind
  • Warum werden keine neuen zugewiesen? keine mehr da?
  • Gibt es nicht die Möglichkeit sich anzeigen zu lassen wo die liegen? Wenn sie nicht direkt nebeneinander liegen ist die Wahrscheinlichkeit ja eher gering, dass dies durch einen headcrash verursacht wurde?
  • Bei 4K Sektoren ==> 1863000000KB / 4KB = 465750000 Sektoren. Selbst wenn 1000 Sektoren unkorrigierbar kaputt wären, auf jeder Platte, wäre die Wahrscheinlichkeit dass der Selbe Datensatz bei zwei Platten kaputt ist wäre damit immer noch kleiner 1:465750^2 = 1:216.923.062.500.

Daher verstehe ich gerade nicht, warum das so kritisch ist, besonders bei RAID nicht. Aber gut, Synology wird sich beim bewerten der Zahlen ja (hoffentlich) auch was gedacht haben. Lasse mein Viertelwissen hier aber gerne verbessern.
Finde es gerade erstaunlich, wie wenig ich darüber finde.
 

randfee

Benutzer
Mitglied seit
08. Apr 2010
Beiträge
1.070
Punkte für Reaktionen
3
Punkte
64
Falls denn jetzt wirklich neue Platten hermüssen:
  • Was kauft man denn jetzt? Zwei Platten "Ausfall" von vier Stück nach 2,5 Jahren finde ich schon extrem. Meine bisherige Erfahrung ist auch zwei Platten von geschätzten 15 besessenen, die beiden liefen aber mehr als doppelt so lang. D.h. diese hier wären jetzt extrem schlecht. Das würde die NAS-Betreiberkosten ja deutlich erhöhen.
  • Besagt die Erfahrung da wirklich, dass teurere "Serverplatten" für den NAS Betrieb von Vorteil sind?
  • Gibt's da nen Tip?

PS: Ich lese gerade, die WD20EARS Platten haben drei Jahre Garantie....., das sollte ja dann einfach sein.
 
Zuletzt bearbeitet:

Frogman

Benutzer
Mitglied seit
01. Sep 2012
Beiträge
17.485
Punkte für Reaktionen
8
Punkte
414
Jetzt interessiert's mich aber doch genauer. Woher habt ihr die Info, dass das ein Hardware Defekt ist? Ich suche nebenbei danach und finde wirklich nicht viel klare Aussagen. Wenn der Fehler wirklich auf mechanische Beschädigung hindeutet verstehe ich die Bedenken, weil sich das schnell fortpflanzen kann
zb Link

Und als kleinen Hinweis: das hat sich nicht Synology ausgedacht - da werden nur interpretierte Daten mit Schwellwerten, wie sie von Festplatten-Herstellern erarbeitet werden, als Warnung herausgegeben. Und die haben meist ihren Grund ;)
Wenn Du Spaß daran hast, fahr die Platten einfach mal weiter und schau, wann der GAU eintritt.
 

randfee

Benutzer
Mitglied seit
08. Apr 2010
Beiträge
1.070
Punkte für Reaktionen
3
Punkte
64
Naja, die Garantie läuft nicht mehr lang, sonst hätte ich jetzt sofort (!) gesagt, ich lass die laufen bis sie nicht mehr funktionieren, das würde mich nämlich wirklich interessieren, ob das jemals zum Problem wird. Von der simplen Wahrscheinlichkeitsrechnung oben müssen da deutlich (!) mehr Sektoren ableben bevor ein Problem überhaupt annähernd wahrscheinlich wird. Aber durchaus möglich, dass die vereinfachte Betrachtungsweise hier unsinn ist.


Jetzt aber noch die Bonusfrage: Zählt die SMART-Aussage als Austauschgrund, oder sagt der Hersteller da nein?!
Ich sehe gerade, die neuen WD Standard-Platten haben alle nur noch 2 Jahre Garantie, Sauerei. Vor zwei Jahren hatten die noch drei Jahre!
WD20EARS-Garantie.jpg
 

rauppe31

Benutzer
Mitglied seit
06. Jun 2011
Beiträge
2.734
Punkte für Reaktionen
0
Punkte
82
Solche deutlichen SMART-Werte sollten eigentlich für einen Tausch ausreichen.
 

randfee

Benutzer
Mitglied seit
08. Apr 2010
Beiträge
1.070
Punkte für Reaktionen
3
Punkte
64
dann versuch ich das morgen mal beim support rauszubekommen.

Macht für den Austausch Folgendes Sinn?
Damit ich alle Daten noch doppelt habe würde ich dann die Platten einzeln tauschen und übers RAID wiederherstellen. Extern hab ich halt eine 4TB Platte als Backup, da ist alles drauf.


PS: Wenn die Platten nicht immer noch teurer wären als vor drei Jahren hätte ich wahrscheinlich schon ein ZweitNAS fürs Backup. Aber ein DS412 mit erstmal 2x4TB ist mir jetzt einfach noch zu teuer.
 
Zuletzt bearbeitet:

rauppe31

Benutzer
Mitglied seit
06. Jun 2011
Beiträge
2.734
Punkte für Reaktionen
0
Punkte
82
Deine Theorie sollte so funktionieren.
 

Ap0phis

Benutzer
Mitglied seit
16. Dez 2010
Beiträge
6.731
Punkte für Reaktionen
3
Punkte
158
Ich glaube (glauben = nicht wissen), dass wir hier ein schönes Beispiel dafür haben, dass sich Desktop-Platten in einem RAID eben nicht so verhalten wie Enterprise-Platten.

Mich würden hier mal die S.M.A.R.T.-Werte und die Ausgabe des S.M.A.R.T.-Testes interessieren, nachdem eine der "fehlerhaften" Platten mal komplett mit dem PC genullt und wieder in das RAID integriert wurde.
Wie jeder, der ein RAID nutzt wissen sollte, werden in einem RAID notwendige Korrekturmaßnahmen anders gehandhabt, als bei Nutzung in einem Desktop. Da könnte ein Nullen am PC die nötige Reparatur der Sektoren veranlassen und die Platte wieder normal in der DS laufen.
Es gibt auch Programme (bei Mac weiß ich nicht), die alle Sektoren prüfen und reparieren können, ohne dass Daten verloren gehen. Wäre evtl. auch ein Versuch wert.
 

randfee

Benutzer
Mitglied seit
08. Apr 2010
Beiträge
1.070
Punkte für Reaktionen
3
Punkte
64
Nochmal ein Update / Überraschung:

Ich lasse jetzt spaßeshalber jeden Tag einen SMART Test jeder Platte durchlaufen und siehe da: Die Diskstation zeigt den Status der Platten mitlerweile wieder als "normal" an.
Kann mir das einer erklären?? Ich hab NICHTS gemacht, außer die Smart Tests laufen lassen.
im Moment würde ich wieder dazu tendieren sie einfach drin zu lassen, aber das Garantieende naht und einen Versuch wäe es wert.

DS410---platten-wieder-ok.jpgDS410---platten-wieder-ok_overview.jpg
 

randfee

Benutzer
Mitglied seit
08. Apr 2010
Beiträge
1.070
Punkte für Reaktionen
3
Punkte
64
hat irgendwer eine Erklärung für das Verhalten der DS?
 

itari

Benutzer
Mitglied seit
15. Mai 2008
Beiträge
21.900
Punkte für Reaktionen
14
Punkte
0
du kannst die Smart-Beurteilung auch auf der Kommandozeile machen und/oder die Platten ausbauen und an einen PC anschießen und dort einen SMART-Tool verwenden ... wenn dabei alles 'ok' ist, dann hat der DSM den Status nur weitergereicht

Itari
 

JuSu

Benutzer
Mitglied seit
30. Sep 2011
Beiträge
170
Punkte für Reaktionen
0
Punkte
16
Hallo randfee,

da sehe ich folgende Möglichkeiten:
- beim SMART Kurztest werden nur die Fehlerinformationen eingesammelt. Der erweiterte SMART Test versucht auch noch einige Korrekturen. Deshalb können ab und an einige Fehler wieder verschwinden. Das habe ich irgendwo auf den Synology US Seiten gesehen, weiss aber nicht mehr wo.
- Deine Platten 1, 2 und 4 haben ein massives Problem mit den Current_Pending_Sectors (speziell Nr 4). Diese Fehler werden hochgezählt, wenn beim Lesen des Sektors ein Problem besteht. Erst beim gescheiterten Versuch des Schreibens auf diesen defekten Sektor wird dieser durch einen Reseversektor ersetzt, falls noch vorhanden. Dann kann der Schwellwert "Abnormal" der Station wieder unterschritten werden.

Besonders unangenehm bemerkbar macht sich jedoch der 2. Punkt, wenn der Sektor in der Systempartion in einem Bereich liegt, von dem i. d. R. nur gelesen wird (z. B. Programme oder Systemeinstellungen). Da alle Systempartitionen der Platten ein RAID1 bilden, verzögert die Platte mit dem Lesefehler den gesamten Ladeprozess - Deine Bandbreitenperformance des gesamten Systems wird heruntergezogen. Deine Platte 4 zeigt dieses Verhalten extrem auf - hier muss aufgrund der hohen Anzahl "Pending Sectors" ständig nachgeladen werden, bis der HD-Controller den Sektor korrekt eingelesen hat. Das dauert und treibt den Stromverbaruch hoch. Daher auch die hohen Temperaturen auf dieser Platte.


Abhilfe:
- Platten ersetzen (teuer)
- Alternativer Versuch: Eine der betroffenden Platten ausbauen, mit dem WD Tool Data Lifeguard Diagnostics in einem externen PC "Nullen" (dauert bei Deinen Platten ca. je 6h). Dadurch wird zwangsweise ein Schreibzugriff auf jede Datenzelle der Platte erfolgen und die Plattenelektronik kann ggf. Reservesektoren nachladen. Dann die "genullte" Platte zurück ins RAID und wieder ins Volumen eingliedern/reparieren. Ist das erfolgt, dann kommt die nächste Platte dran.

Siehe hier:
"Data Lifeguard Diagnostics für Windows": Low-Level-Formatierung oder Überschreiben mit Nullen (vollständiges Löschen) eines WD-Festplattenlaufwerks oder Festkörperlaufwerks
http://wdc-de.custhelp.com/app/answers/detail/a_id/5992/~/low-level-formatierung-oder-%E3%9Cberschreiben-mit-nullen-%28vollst%E3%A4ndiges#windlg

Der Support von Synology hatte mich auf diese Thematik hingewiesen, nachdem auf meiner Station ähnliches passierte. Ich hatte die betroffene Platte dann durch eine neue ersetzt; der Fehler der Bandbreitenreduktion und die erhöhte Temperatur waren sofort verschwunden. Aus Interesse habe ich dann die defekte Platte "genullt" und danach wieder ins RAID10 zurückgesetzt. Die läuft seitdem wieder perfekt. Die "neue" Ersatzplatte habe ich jetzt noch auf Reserve liegen - man weiss ja nie.

Gruß
JuSu
 

Denmat

Benutzer
Mitglied seit
21. Jul 2012
Beiträge
110
Punkte für Reaktionen
0
Punkte
22
Beim RAID5 ist doch spätestens beim REBUILD mit den HDD's das Feuer am brennen wenn beim Rebuild in einen Sektor gerannt wird der Nicht korrigierbar ist und Parity Infos beinhaltet, dann degraded dir die DS eh das RAID und verweigert den Rebuild.

Gruß Denmat
 

JuSu

Benutzer
Mitglied seit
30. Sep 2011
Beiträge
170
Punkte für Reaktionen
0
Punkte
16
@Denmat,

klar, da hast Du recht - da kann immer etwas passieren.

Ob jetzt neue Platten eingesetzt werden oder ob ggf. die preiswertere "Null"-Alternative versucht wird, spielt beim Rebuild keine große Rolle mehr: Wenn ein bestimmter Sektor gar nicht mehr gelesen oder rekonstruiert werden kann, ist's halt Pech. So etwas macht man auch nur mit einem funktionierenden Backup. Davon bin ich jedoch stillschweigend ausgegangen, denn wer soviele Daten auf einem Medium vorhält, hat sich darüber bestimmt schon seine Gedanken gemacht.

Gruß
JuSu
 

randfee

Benutzer
Mitglied seit
08. Apr 2010
Beiträge
1.070
Punkte für Reaktionen
3
Punkte
64
danke allen.

Ich denke ich werde die Platte vier gleich mal aus der DS in einen Rechner einbauen und dort mit dem WD Tool plattmachen/konditionieren und dann nochmal schauen was Stand der Dinge ist. Das geht einfach über NAS ausschalten, Platte rausziehen und danach wieder einbauen, DSM meckert dann selber und fängt selbständig an die Platte wieder herzustellen? Was passiert dabei mit wenigen (!) Sektoren auf den anderen Platten, die kaputt sind? Dann gibt's ja bei der Wiederherstellung keine Redundanz, sind die Daten dann kaputt oder fängt das noch irgendwe Prüfsumme des filesystems ab?

Garantie haben sie ja noch, aber WD sagte mir, dass, "solange die Platten laufen", das kein Garantiefall sein.

Insgesamt aber nochmal die Frage. Die Platten haben, schätze ich, 4K(byte) Sektoren. Wenn auf einer 2TB Platte davon ein paar hundert ausfallen, dann ist das doch fast immer noch nichts von der Anzahl her. Die Wahrscheinlichkeit, dass dann noch zwei gleiche Sektoren übers RAID 5 degradiert sind ist doch aber extrem klein....., oder wo ist der Denkfehler? Will nicht hießen, dass ich so denke, ist nur ne Frage
 
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat