HDD SATA Volumenauslastung durch kränkelnde HDD (WD-Red) ??

SATA HDD
Status
Für weitere Antworten geschlossen.

BigRonin

Benutzer
Mitglied seit
08. Mai 2015
Beiträge
1.156
Punkte für Reaktionen
131
Punkte
89
So langsam zweifle ich an Synology und / oder an Western-Digital. :(

Seit geraumer Zeit mühe ich mich, wegen schlechter Performance, mit meiner DS2415+ ab. Einfache Datei-Kopieraktionen lasten das Volumen teils bis nahe 100% aus. Die DS ist per Link Aggregation über einen HP Switch ans Netzwerk angebunden und trotzdem sind keine Netzwerkübertragungsraten jenseits von 120 MB/s möglich. Solange ich nur einen Client bemühe, werden die 110MB/s erreicht. Sobald ich aber versuche parallel mit einem zweiten Client auf die DS zuzugreifen, steigt die Volumenauslastung auf 100% Anschlag und unter CPU steigt die Prozentangabe für „I/O Warten“ auf >= 25%.

Link Aggregation ist korrekt eingerichtet und funktioniert. (Habe noch eine DS415+ die ebenfalls per Link Aggregation angebunden ist und die schafft lesen / schreiben 250MB/s) Auf dem Switch kann ich sehen, dass die Daten tatsächliche über verschiedene Netzwerkports geleitet werden.

Da ich früher durchaus Netzwerkübertragungsraten von 350MB/s erreicht habe, war und bin ich mir sicher es „muss“ gehen. Ich habe lange und viel getestet: Sämtliche Dienste bzw. Program-Pakete deaktiviert; SMB Protokolle gewechselt; Die letzte WD-Green gegen eine WD-Red getauscht; Datenbereinigung gestartet. (Während des Rebuilds und der Datenbereinigung bescheinigt mir der Ressourcen-Monitor unter Datenträger eine Übertragungsrate lesen / schreiben von über 400MB/s)

Die Smart-Werte aller 12 Festplatten sehen „normal“ aus. Lediglich auf 3 Festplatten sind ID 1 Werte 6, 18 und 40 verzeichnet. (Laut Protokoll sind die zwischen Januar und August 2016 aufgetreten und seit dem unverändert.) Nichts, aber auch absolut nichts, bis auf die ID 1 Einträge, deuten auf ein Problem hin.

Gestern habe ich dann, das erste Mal überhaupt, einen erweiterten Smart-Test über alle 12 Festplatten angestoßen. Dann die Ernüchterung: Nach mehr als 12 Stunden hängen 2 Festplatten bei 90%.

Habe jetzt die DS2415+ heruntergefahren, die beiden Festplatten entnommen und je eine an einen PC gehängt und begonnen mit dem WD-Tool: „Data Lifeguard Diagnostic für Windows“ zu testen.
Die erste HDD macht seit ca. 3 ½ Stunden einen Extended Test und hat noch ca. 4 Stunden vor sich. Bei der zweite HDD ist der Extended Test nach ca. 5min angehalten und ging nicht weiter. Nach Abbruch des Test dann die Meldung erhalten ein defekter Sektor wäre gefunden worden und können repariert werden. Die zweite Festplatte macht nun seit ca. 2 ½ Stunden einen „Full Erase“. Hat sich bei einer anderen HDD bereits bewährt.

Je nachdem wie der Extended Test der ersten HDD ausfällt, werde ich die wohl auch einmal „Full Erasen“ … mir graut es vor dem Tagelangem Rebuild des Volumens. Beide HDDs haben keine 8.000 Stunden gelaufen.

Bis lang war ich ein überzeugter Fan von WD-Festplatten. Mein Leben lang fast ausschließlich diese Marke verwendet und nun innerhalb von 1 ½ Jahren die 3. & 4. Festplatte von WD die zickt. Alle in der DS2415+. Kann ein äußerst unglücklicher Zufall sein, macht bei 12 HDDs aber 33% aus und hinterlässt einen äußerst faden Beigeschmack.

Was mir an dieser Stelle, an Synology und der DSM missfällt, ist die mangelnde Möglichkeit hier Fehleranalyse zu betreiben. Denn, ob die beiden HDDs für die Volumenauslastung verantwortlich sind, wird sich erst die nächsten Tage zeigen wenn alle Rebuilds abgeschlossen sind.
 

Frogman

Benutzer
Mitglied seit
01. Sep 2012
Beiträge
17.485
Punkte für Reaktionen
8
Punkte
414
Ja, und nu?
 

Kurt-oe1kyw

Benutzer
Sehr erfahren
Mitglied seit
10. Mai 2015
Beiträge
9.139
Punkte für Reaktionen
1.800
Punkte
314
sri, aber du schreibst selbst dass 3 HDD Defekte aufweisen und wunderst dich über die Prozentangabe I/O Warten > 25% - Tausch die 3 HDDs aus auf die notwendigen WD red PRO und die Performance wird deutlich steigen bei deiner DS.

Nebenbei: ID 6, 18 und 40 tauchen bei meinen 4 funktionierenden WD erst gar nicht auf - also da ist schwer was nicht in Ordnung mit diesen 3 HDDs.
Leider schreibst du nicht um welche WD es sich handelt?
Bei 12 Stück (konkret über 8 Stück) rät WD unbedingt zu den NAS WD red-PRO Modellen da diese zusätzliche Sensoren für die Vibrationen besitzen und auch 5 Jahre Garantie haben.
Sind die 3 defekten HDDs "normale" REDs so hast du immer noch 3 Jahre Garantie darauf, Seriennummer bei WD eingeben und den Status abrufen, wenn die noch in Garantie laufen dann austauschen lassen, direkt bei WD.
WD - Green sind eben nicht für NAS Betrieb optimiert und schon gar nicht im Einsatz bei 12 Stück!
 

BigRonin

Benutzer
Mitglied seit
08. Mai 2015
Beiträge
1.156
Punkte für Reaktionen
131
Punkte
89
Von den 12 HDDs sind 7 WD-Red WD40EFRX 4.0 TB zu denen auch die 3 auffälligen HDDs zählen. Im System sind 5 weitere WD-Red WD30EFRX 3.0 TB die doppelt so viele Stunden auf dem Buckel haben und zeigen keine Auffälligkeiten.

Status.jpg

Die drei 4.0 TB haben noch bis Mitte 2019 Garantie, das ist nicht das Problem.

Das die 2 bzw. 3 HDDs einen Defekt aufweisen … hm … selbst die eine HDD mit ID 1 = 40, da liegt der Wert noch unter dem von WD angegebenen Schwellwert. Aber … selbst wenn das so ist, dann liegt doch da der Hase im Pfeffer … es ist der einzige auffällig Wert. Weder die Smart-Werte noch der Speicher-Manager deuten auf einen tatsächlichen Defekt hin. Der mit Verlaub, noch nicht belegt ist.

Dass die WD-Red nur „offiziell“ bis 8 Bays spezifiziert sind, ist mir bekannt. Ist und war eine Kostenfrage bis jetzt. Ob möglicherweise die Spezifikation von „nur“ 8 HDDs in einer NAS zu den schleichenden Problemen / Defekten führt ist doch fraglich. Seek-Errors sind keine verzeichnet.

Definitive werden es bei einer neuen DS „Pro“ Versionen von WD-Red oder Seagate IronWolf werden.
 
Zuletzt bearbeitet:

Frogman

Benutzer
Mitglied seit
01. Sep 2012
Beiträge
17.485
Punkte für Reaktionen
8
Punkte
414
Und was erwartest Du Dir jetzt vom Forum? Oder wolltest Du uns das Ganze nur mitteilen?
 

BigRonin

Benutzer
Mitglied seit
08. Mai 2015
Beiträge
1.156
Punkte für Reaktionen
131
Punkte
89
Meine Beobachtungen / Erfahrungen hier mitteilen :)

Vielleicht hilft es den ein oder anderem bei der Suche nach ähnlichen Problemen.
 

Frogman

Benutzer
Mitglied seit
01. Sep 2012
Beiträge
17.485
Punkte für Reaktionen
8
Punkte
414
Aha... da wirken die beiden Fragezeichen im Threadtitel dann leicht verwirrend ;)
 

BigRonin

Benutzer
Mitglied seit
08. Mai 2015
Beiträge
1.156
Punkte für Reaktionen
131
Punkte
89
Da ich erst nach dem testen / löschen der betroffenen HDDs eine Aussage treffen kann zu der Volumenauslastung und Performance … sind zumindest bis dahin die Fragezeichen nicht ganz unbegründet :eek:

Ich werde auf alle Fälle weiter berichten wie es ausgeht.
 

adamp

Benutzer
Mitglied seit
17. Dez 2011
Beiträge
281
Punkte für Reaktionen
2
Punkte
18
Ich hatte die letzten Tage einen ähnlichen Fall. SHR (RAID5) mit 4 x 4 TB HDD. Lesefehler einer HDD, Daten kamen zwar korrekt an, aber der Durchsatz ging lesend auf wenige MB/s runter und die Volumenauslastung ging auf 100% (BTRFS Volume) während der Einbrüche.

@WD: Mir sind in den letzten 2 Jahren 4 WD40EFRX (RED, 4 Platter Version). Verschiedene Chargen und Händler.
 

BigRonin

Benutzer
Mitglied seit
08. Mai 2015
Beiträge
1.156
Punkte für Reaktionen
131
Punkte
89
So … hatte versprochen, dass ich mich nochmal melde.

  • Irgendwie scheint der Speicher-Manager von Synology und das „Data Lifeguard Diagnostic“ Tool von Western Digital (egal ob die DOS- oder Windows-Version) unterschiedlich mit den HDDs umzugehen. Beide HDDs bleiben beim erweiterten SMART-Test im Speicher-Manager bei 90% stehen. hingegen läuft der erweiterte SMART-Test im Data Lifeguard Diagnostic-Tool durch „ohne“ Fehlermeldung.
  • Alle meine Versuche mit dem Data Lifeguard Diagnostic-Tool die beiden HDDs wieder „fit“ zu bekommen sind gescheitert. Zwar ließen sich beide HDDs ohne jede Fehlermeldungen testen und „full erasen“, im Speicher-Manager während des Rebuilds hagelte es I/O-Fehler und beide HDDs weisen inzwischen Current_Pending_Sector und Multi_Zone_Error_Rate Einträge aus.
  • Laut dem Data Lifeguard Diagnostic-Tool währen / sind die beiden HDDs in Ordnung.
  • Der Speicher-Manager empfiehlt inzwischen den Austausch eine HDD.

Welche Lehre ziehe ich daraus?

  • Ich werde mich in Zukunft strikt nach den Hersteller Spezifikationen richten.
  • Reparatur Versuche mit Hersteller-Tools sind wenig erfolgsversprechend.

Was mache ich jetzt?

  • Ich habe mir jetzt 4 IronWolf Pro 10 TB bestellt.
  • Ich habe eine DS415+ in welche ich die IronWolf stecken werde.
  • Ich werde die DS415+ mit den IronWolf über ein RAID5 komplett neu einrichten und die DS2415+ soweit es geht duplizieren.
  • Beten das dies gelingt bevor mehr als 2 HDDs aus der DS2415+ sterben.
  • Migrieren des RAID5 aus der DS415+ in die DS2415+
  • Da alle zickenden HDDs von WD noch Garantie haben, RMA stellen.
  • Die vorhandenen 4 TB HDDs, die dann hoffentlich fit sind, auf meine DS415+ und DS413 verteilen.
  • DS415+ und DS413 wieder herstellen. (Backup / Sicherung zurückspielen.)
  • Sommer 2018 kommt dann eine DS3617xs und Migration des DS2415+ auf die DS3617xs.
  • Beschaffung zweier weiterer IronWolf Pro 10 TB HDDs und Erweiterung des RAID 5 auf RAID 6 dann mit 6 HDDs.

Nun heißt es in die Hände spucken und Geduld aufbringen. Wahrscheinlich werde ich etliche Tage für das „Projekt“ benötigen. Dann hoffe ich mal, das mir Murphy bis dahin nicht über den Weg läuft.

Der Titel des Themas enthält 2 Fragezeichen. Zum jetzigen Zeitpunkt lässt sich die Frage nicht zu 100% beantworten. Der Zustand der HDDs bzw. des Volumens hat sich nicht gebessert, eher das Gegenteil ist eingetreten. Es ist aber, um auf den Thementitel zurück zukommen, eher sehr wahrscheinlich das man die Frage mit „Ja“ beantworten kann. Mit einem Zusatz: Es ist ebenso wahrscheinlich, dass die WD-REDs ab 9 HDDs aufwärts, doch erheblich Performance bereiten können.

PS. Es brauch keiner anmerken wie dumm ich bin oder wie dumm das war … habe ich selber erkannt. :eek:
 

dil88

Benutzer
Sehr erfahren
Mitglied seit
03. Sep 2012
Beiträge
30.907
Punkte für Reaktionen
2.358
Punkte
829
Viel Erfolg!
 

BigRonin

Benutzer
Mitglied seit
08. Mai 2015
Beiträge
1.156
Punkte für Reaktionen
131
Punkte
89
Zwischenbericht und Frage

Es gibt meinerseits einen Zwischenbericht. Ich habe mich zwischenzeitlich an den Support von Western Digital gewandt und meine Situation geschildert.

Ich besitze eine NAS (Synology DS2415+) mit 12 HDD-Einschüben. Im Laufe der Zeit habe ich die Anzahl der HDDs in der NAS, von ursprünglich 5x WD-RED WD30EFRX, um 7 weitere WD-RED WD40EFRX ergänzt. Somit befinden sich in der NAS 12 WD-RED HDDs. Dabei gänzlich übersehen, dass WD die WD-RED nur bis max. 8 HDDs im Verbund spezifiziert. Ich frage mich nun ob das ein Fehler von mir war, denn jetzt nach ca. 4500 bzw. 7700 Betriebsstunden weisen 3 HDDs von den 7 WD-RED WD40EFRX, Raw_Read_Error_Rate und Multi_Zone_Error_Rate Fehler auf. Die 5 x WD-RED WD30EFRX mit über 13.200 Betriebsstunden sind, wie vom ersten Tage an, vollkommend in Ordnung.
Ist das dem Umstand von 12 HDDs geschuldet oder nur ein unglücklicher Zufall?

Gestern habe ich von Western Digital eine Antwort erhalten.

Sehr geehrter Herr XxxxX,
vielen Dank dass Sie Western Digital kontaktiert haben, mein Name ist XxxxX.
Die Anzahl und die nun auftretenden Fehler sind nicht im selben Zusammenhang zu sehen, sonst dürften sich auch andere Laufwerke "früher verabschieden". Testen ob Ihr NAS eventuell die Fehler verursache (Festplatten umstecken), da die Anzahl ungewöhnlich hoch ist (25%, bei 3 von 12 Laufwerken).
Haben Sie bereits Kabel oder SATA-Steckplatz bzw. USB-Port gewechselt? Wir empfehlen bei internen und externen Festplatten, falls möglich, ein Testen mithilfe von Data Lifeguard Diagnostics (für Macs: WD Drive Utilities). Können Sie das Gerät testen?

Meine Antwort darauf steht noch aus.

ABER:

Was hier sagen kann ist folgendes: Die eine HDD ist bereits schon einmal umgesteckt worden, von Schacht 7 in Schacht 11 und der Fehler folgt der HDD.
Die andere HDD welche in Schacht 3 steckt, ist derselbe Schacht in der am 28.11.2016 schon mal eine WD-RED gestorben ist. Derselbe Schacht scheint nun nach knapp einem Jahr wieder Probleme zu machen, oder ist es doch nur ein dummer Zufall?

Die DS2415+ habe ich am 29.04.2015 gekauft, also vor etwa 2 ½ Jahren. Zeichnet sich hier ein Garantiefall ab?

Ich möchte ungerne die neuen IronWolf-Pro, in eine möglicherweise, defekten DiskStation stecken.

Was würdet ihr machen? RMA? Hat schon mal jemand beobachtet das in ein und demselben Festplattenschacht HDDs sterben?
 

adamp

Benutzer
Mitglied seit
17. Dez 2011
Beiträge
281
Punkte für Reaktionen
2
Punkte
18
Welche WD40EFRX sind es? Die 4 Platter Version (68WT0N0) oder die 3 Platter Version (68N32N0)?

Mir sind in den letzten 2 Jahren in verschiedenen DSen und auch von völlig verschiedenen Händlern 4 von 4 WD40EFRX 4 Platter Version mit dem gleichen Fehler RAW READ ERROR RATE + Multi Zone Error Rate gestorben bzw. hatten dann Hänger da es Lesefehler hagelte. Die WD40EFRX 3er laufen bisher noch 1a.
 

BigRonin

Benutzer
Mitglied seit
08. Mai 2015
Beiträge
1.156
Punkte für Reaktionen
131
Punkte
89
Die erste HDD in Schacht 3 war eine WD30EFRX-68EUZN0, die andern 3x WD40EFRX-68WT0N0. Die neuste, ohne Probleme bis jetzt, eine WD40EFRX-68N32N0.
 

adamp

Benutzer
Mitglied seit
17. Dez 2011
Beiträge
281
Punkte für Reaktionen
2
Punkte
18
Schon komisch, dass bei dir die 68T0N0 WD40EFRX genauso wie bei mir ausfallen, vor allem mit den gleichen Fehlern. Nicht dass die 4 Platter Version wirklich "vergurkt" ist. Nur dafür müsste man wirklich mehr Input/Fälle haben.
 

BigRonin

Benutzer
Mitglied seit
08. Mai 2015
Beiträge
1.156
Punkte für Reaktionen
131
Punkte
89
Nachtrag:

Habe soeben einen Garantieantrag bei Synology gestellt. Ich glaube nicht mehr an eine zufällige Häufung von HDD Fehlern.
 

adamp

Benutzer
Mitglied seit
17. Dez 2011
Beiträge
281
Punkte für Reaktionen
2
Punkte
18
Verständlich, da gerade die DS2415+ ja auch kein LowCost Produkt ist.

Trotzdem kann ich mir nicht vorstellen, dass es etwas mit der DS zu tun hat.

Wären HDDs elektr. defekt, dann ok, oder CRC Errors oder Pending Sectors, dann wäre da durchaus der Fehler bei der DS zu suchen. Aber diese Werte RAW READ ERROR RATE und MULTIZONE ERROR RATE, haben absolut NICHTS mit dem Host (also der DS) zu tun. Das sind 100 % Platteninterne Werte,
 

BigRonin

Benutzer
Mitglied seit
08. Mai 2015
Beiträge
1.156
Punkte für Reaktionen
131
Punkte
89
Sys-Log und HDD-Protokoll ist voll davon:

Syslog.png
HD-Log.jpg

Pending Sectors auch:

Datenträger 03-02 - 2017.10.16.png
Datenträger 11-02 - 2017.10.16.png
 

adamp

Benutzer
Mitglied seit
17. Dez 2011
Beiträge
281
Punkte für Reaktionen
2
Punkte
18
Nur wo kommen die defekten Sektoren her? Die HDD sagt ja selbst, dass diese defekt sind.

Nun ja. Wird man ja sehen. Ist die DS getauscht, dann müsste das Problem ja nicht mehr bestehen.
 

Fusion

Benutzer
Sehr erfahren
Mitglied seit
06. Apr 2013
Beiträge
14.172
Punkte für Reaktionen
922
Punkte
424
Habe auch das starke Gefühl., dass die WD Red speziell in der 4TB Variante im Durchschnitt eine höhere Ausfallrate haben als die 2/3/5/6 TB Varianten.

Datenträger 3 und 11 schauen beide nicht gut aus.
Platten mit ID 1 und 197 größer 0 kommen bei mir sofort auf die Austausch Liste
Bei ID 5, 196, 200 werden sie sofort gewechselt.
Besonders die 200 deutet auf elektro-mechanische Probleme mit der Lesekopf-Einheit oder der Plattenoberfläche.

Man kann sie noch durch die Festplatten-Tools des Herstellers jagen, aber austauschen würde ich so oder so.
Da hilft auch der Tausch der DS nichts.
 
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat