DSM 6.x und darunter HDD entfernen während SHR-2-Erweiterung? Hohe S.M.A.R.T.-Seek Error Rate

Alle DSM Version von DSM 6.x und älter
Status
Für weitere Antworten geschlossen.

ST225

Benutzer
Mitglied seit
30. Apr 2015
Beiträge
11
Punkte für Reaktionen
0
Punkte
0
Hallo zusammen,

ich habe eine DS-1815+ mit acht Festplatten, die eine Diskgruppe mit SHR-2 bilden. Darauf befindet sich ein Volume, welches die gesamte Kapazität der Diskgruppe (ca. 15 TB) mit rund 10 TB Daten belegt.

Ich habe nun eine DX-513 mit vier 3-TB-Festplatten angeschlossen und die Erweiterung der SHR-2-Diskgruppe um diese vier Platten gestartet. Das ganze läuft extrem langsam. Der Fortschritt liegt nach 5 Tagen (!) Laufzeit bei 5,5%. Auch alle anderen Funktionen der DS-1815+, die irgendwie Plattenzugriff benötigen, sind extrem langsam. Lesen vom Volume erfolgt nur noch mit 250 KB/s (Kilobyte, nicht Megabyte!). Die CPU-Auslastung liegt bei unter 5% und die RAM-Auslastung bei 35%.

Bei einer der vier neuen Festplatten erhöht sich die SEEK-ERROR-RATE in den S.M.A.R.T. -Daten kontinuierlich, bei den anderen Festplatten gleichen Typs steht sie auf Null. Der S.M.A.R.T.-Status aller Festplatten ist allerdings "OK".

Ich vermute, das diese eine Festplatte das ganze System verzögert, weil bei jeder Festplattenoperation auf diese Festplatte gewartet wird.

Ich habe eigentlich keine Lust, noch rund 90 Tage auf die Volume-Erweiterung zu warten.

Meine Fragen an Euch:

- Kann ich meine Vermutung, dass eine Festplatte mit auffälliger SEEK-ERROR-RATE für die Verlangsamung des Systems zuständig ist irgendwie genauer prüfen?

- Was passiert, wenn ich diese eine Festplatte im laufenden Betrieb rausziehe? Sofern das SHR-2 während der Erweiterung intakt ist, müsste es doch einfach weiterlaufen und auch wieder schneller werden, wenn es nicht mehr auf diese eine Festplatte warten muss.

- Oder liege ich ganz falsch und die Erweiterung um vier 3TB-Festplatten in einer DX513 ist einfach so langsam?

Vielen Dank für Eure Antworten!
 

dil88

Benutzer
Sehr erfahren
Mitglied seit
03. Sep 2012
Beiträge
30.948
Punkte für Reaktionen
2.415
Punkte
829
Nein, die Erweiterung ist nicht so langsam. Welche Platten sind denn verbaut?
 

ST225

Benutzer
Mitglied seit
30. Apr 2015
Beiträge
11
Punkte für Reaktionen
0
Punkte
0
Ich habe die WD30EZRS (Datenträger 2 im DX513) in Verdacht, weil diese als einzige WD-Festplatte eine Seek-Error-Rate > 0 hat.

2015-04-30_11h05_47.jpg

cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] [raid4]
md4 : active raid6 sda7[0] sdd7[3] sdc7[2] sdb7[1]
1953485568 blocks super 1.2 level 6, 64k chunk, algorithm 2 [4/4] [UUUU]

md3 : active raid6 sdid6[9] sdic6[8] sdib6[7] sdia6[6] sda6[0] sdg6[5] sde6[4] sdd6[3] sdc6[2] sdb6[1]
5860475136 blocks super 1.2 level 6, 64k chunk, algorithm 2 [10/10] [UUUUUUUUUU]
resync=DELAYED

md2 : active raid6 sdid5[11] sdic5[10] sdib5[9] sdia5[8] sda5[0] sdh5[7] sdg5[6] sdf5[5] sde5[4] sdd5[3] sdc5[2] sdb5[1]
8761843584 blocks super 1.2 level 6, 64k chunk, algorithm 2 [12/12] [UUUUUUUUUUUU]
[==>..................] reshape = 11.0% (161844096/1460307264) finish=103958.1min speed=208K/sec

md1 : active raid1 sda2[0] sdb2[1] sdc2[3] sdd2[7] sde2[6] sdf2[5] sdg2[2] sdh2[4]
2097088 blocks [8/8] [UUUUUUUU]

md0 : active raid1 sda1[0] sdb1[1] sdc1[2] sdd1[3] sde1[4] sdf1[7] sdg1[6] sdh1[5]
2490176 blocks [8/8] [UUUUUUUU]
 

ST225

Benutzer
Mitglied seit
30. Apr 2015
Beiträge
11
Punkte für Reaktionen
0
Punkte
0
Was mir noch auffällt:

Das Abrufen der S.M.A.R.T.-Daten über Speichermanager -> HDD/SDD -> Integritätsstatus -> Überblick -> S.M.A.R.T.-Informationen erfolgt bei den acht Platten in der DS1815+ verzögerungsfrei innerhalb einer Sekunde. Bei den vier Platten in der DX513 dauert das gleiche 30 bis 90 Sekunden. Manchmal erhalte ich auch eine Fehlermeldung "Nicht verfügbar" und es wird gar nichts angezeigt.
 

dil88

Benutzer
Sehr erfahren
Mitglied seit
03. Sep 2012
Beiträge
30.948
Punkte für Reaktionen
2.415
Punkte
829
Bei einer WD sollte Seek_Error_Rate in der Tat auf 0 stehen. Wenn die kontinuierlich steigt, dann liegt es nahe, dass diese Platte bremst. Ob Du die Platte während der Erweiterung des RAIDs ziehen kannst, kann ich nicht beurteilen.
 

ST225

Benutzer
Mitglied seit
30. Apr 2015
Beiträge
11
Punkte für Reaktionen
0
Punkte
0

dil88

Benutzer
Sehr erfahren
Mitglied seit
03. Sep 2012
Beiträge
30.948
Punkte für Reaktionen
2.415
Punkte
829
Beide Aussagen sind mir bekannt, also einerseits dass es während einer Erweiterung keine Redundanz gibt und andererseits dass der Ausfall einer Platte oder ein Neustart das Volume nicht zerstört hat. Ich habe es nur selbst noch nicht getestet. Deswegen bin ich da mit einer Aussage sehr vorsichtig. Hast Du ein Backup der Daten?
 

ST225

Benutzer
Mitglied seit
30. Apr 2015
Beiträge
11
Punkte für Reaktionen
0
Punkte
0
Hast Du ein Backup der Daten?

Das Backup auf externe USB3-HDDs läuft. Allerdings genauso langsam, wie der Rest. Laut MDSTAT läuft das Reshape mit 50 KB/s. Ich habe gerade die drei parallelen Backup-Copy-Jobs abgebrochen, worauf sich die Reshape-Geschwindigkeit auf knapp 100 KB/s erhöht hat.

Ich lese mich mal in MDADM ein und schaue, ob man die von mir als Ursache vermutete WD-Festplatte vielleicht softwaremäßig deaktivieren kann ("-fail"). Dann brauche ich sie nicht im laufenden Betrieb ziehen.

Im allerschlimmsten Fall lasse ich die Diskstation die nächsten drei Monate einfach laufen. Ist zwar nicht optimal, aber machbar.

Befremdlich finde ich, dass das Abrufen der S.M.A.R.T.-Daten bei _allen_ Festplatten in der DX513 so lange dauert. Kann das verzögerte Lesen bei einer der vier HDDs auch die Kommunikation mit den anderen drei blockieren? Oder habe ich vielleicht ein Problem mit der DX513 selber? Suche gleich mal im Forum nach Berichten über die DX513.
 

dil88

Benutzer
Sehr erfahren
Mitglied seit
03. Sep 2012
Beiträge
30.948
Punkte für Reaktionen
2.415
Punkte
829
Generell solltest Du überlegen, ein Ticket bei Synology aufzumachen. Denn die Frage, wie man in einer solchen Situation eine massiv bremsende Platte los wird, ist schon eine wichtige.
 

ST225

Benutzer
Mitglied seit
30. Apr 2015
Beiträge
11
Punkte für Reaktionen
0
Punkte
0
Es gibt noch einen neuen Aspekt. Gerade ist die Email mit dem monatlichen "Gesundheitsbericht" (=Smart-Schnelltest aller Platten) angekommen. Darin steht für die fünfte Festplatte (also in der DS1815+):

Datenträger 5:
Anzahl Neuverbindung Laufwerk 382
Fehlerhafte Sektorenanzahl 0
Laufwerksidentifizierung Fehleranzahl 0

Alle anderen Festplatten stehen auf dreimal Null.

Ich versuche gerade die S.M.A.R.T.-Daten dieser Platte abzurufen, vom Speicher-Manager kommt aber immer die Meldung "Verbindung fehlgeschlagen - Prüfen Sie Ihre Netzwerkeinstellungen". Ich reiche die Daten nach, sobald ich drankomme.
 

dil88

Benutzer
Sehr erfahren
Mitglied seit
03. Sep 2012
Beiträge
30.948
Punkte für Reaktionen
2.415
Punkte
829
Ggfs. die DS einmal 'runterfahren, die betroffene Platte ziehen, Kontakte prüfen, ggfs. säubern und Staub wegpusten. Dann die Platte wieder einbauen und dabei auf guten Kontakt achten.
 

ST225

Benutzer
Mitglied seit
30. Apr 2015
Beiträge
11
Punkte für Reaktionen
0
Punkte
0
Habe heute die vermeintlich bremsende Festplatte "gezogen"!

Doch der Reihe nach:

Ich habe zunächst die wichtigen Daten, von denen es kein aktuelles Backup gab, gesichert. Interessanterweise ließ sich ein großer Teil der Daten mit rund 50 MB/s übers LAN von der DS1815+ kopieren. Ob ich Glück hatte und diese Daten ohne Zugriff auf die vermeintlich defekte WD-HDD in der DX513 gelesen werden konnten oder was auch immer da los war, kann ich nicht sagen. Manche Dateien wurden aber auch wieder ganz langsam mit wenigen KB/s gelesen. Interessanterweise wird das Kopieren mit OS-X auf einem iMac dann einfach nur langsam, während ein Windows-2011-SBS-Server beim Kopieren einen Netzwerk-Timeout meldet, aus dem man auch mit Retry nicht mehr rauskommt. Auf dem SBS-2011 muß man den Copy-Job dann abbrechen und neu starten, was aber durch das Überspringen der bereits kopierten Dateien auch kein Problem ist.

Verunsichert durch die vielen Netzwerk-Timeout-Meldungen habe ich auch noch den Netzwerk-Switch testweise getauscht. Ich hatte zusammen mit der DS1815+ auch einen neuen D-LINK-Switch in Betrieb genommen, um die Link-Aggregation auf allen vier LAN-Ports der DS1815+ zu nutzen. Das Verhalten änderte sich aber nicht und so schloss ich wieder den D-LINK an.

Eine Überprüfung der SMART-Daten der WD-Festplatte ergab, dass die Seek-Error-Rate sich in den letzten 72 Stunden nicht mehr verändert hat.

Die vom monatlichen "Gesundheitsbericht" gemeldeten 382 Reconnects der Seagate-Festplatte stammen alle aus dem April und kein einziger aus dem Mai. Was auch immer das Problem war, es scheint momentan nicht mehr zu existieren.

Dann habe ich - im laufenden Betrieb - die zweite Festplatte der DX513, also die WD mit der Seek-Error-Rate größer Null, rausgezogen.

Schnell (und mit erhöhtem Puls) vom Serverraum zurück ins Büro und aufs Web-Interface geschaut: Die DS1815+ lief "normal" weiter. Keine Fehlermeldung! Im Speichermanager war die Zahl der verwendeten Festplatten von 12 auf 11 gesunken und die Zahl der verfügbaren Steckplätze von 1 auf 2 gestiegen. Das Volume 1 war weiterhin online und das laufende Erweitern der Diskgruppe lief einfach weiter (!?).

Alle Verzögerungen in der Weboberfläche der DS1815+ sind verschwunden: Der Speicher-Manager startet schnell und zeigt sofort die Übersicht an. Das Abrufen der SMART-Daten ist verzögerungsfrei, auch bei den Platten in der DX513. Der Zugriff über LAN erfolgt wieder im zweistelligen MB/s-Bereich. Die Anmeldung an der Syncstation funktioniert wieder (war vorher mit Timeout abgebrochen), die Synchronisation erfolgt wieder normal schnell.

Das Erweitern der Diskgruppe, welches vorher mit rund 1% pro 24 Stunden lief, läuft jetzt mit 0,01% in 30 Sekunden und steht mittlerweile bei 25%.

Was mich allerdings wundert: Nirgends wird ein Fehler oder eine Warnung wegen der herausgezogenen Festplatte angezeigt! Vielleicht passiert das auch erst, wenn das Erweitern abgeschlossen ist. Momentan steht der Status der Diskgruppe auf "Erweitern (Platte hinzufügen 25.03%)".

Mal sehen, wie sich die DS1815+ verhält, wenn das Erweitern abgeschlossen ist und ich auf dem dann freien Platz der Diskgruppe ein neues Volume einrichten will.

Nur so für die, die diesen Beitrag erst später lesen werden: Das alles hier passiert mit DSM-Version 5.1-5022 Update 5, also der am 3. Mai 2015 aktuellen Version.
 

ST225

Benutzer
Mitglied seit
30. Apr 2015
Beiträge
11
Punkte für Reaktionen
0
Punkte
0
Heute hat sich der Synology-Support per Email gemeldet:

Ich solle die Platte einfach rausziehen und durch eine Neue ersetzen, was ich nach der Datensicherung vor drei Tagen ja bereits auf eigene Faust getan hatte. Nun ist die Vorgehensweise also "offiziell".
 
Zuletzt bearbeitet:

ST225

Benutzer
Mitglied seit
30. Apr 2015
Beiträge
11
Punkte für Reaktionen
0
Punkte
0
Zwischenzeitlich ist die Erweiterung der Diskgruppe fertig geworden.

Wie erwartet, sprang der Status der Diskgruppe danach auf "degraded 11/12" um. Die eine entfernte (=fehlerhafte) Festplatte wurde also gemeldet. Ich habe dann die DS1815+ heruntergefahren und eine neue 3TB-HDD für die im laufenden Betrieb rausgezogene Festplatte eingesetzt. Nach dem erneuten Start der DS1815+ wurde die Diskgruppe natürlich weiterhin als fehlerhaft gemeldet und ich habe die Reparatur unter Einbeziehung der neuen Festplatte gestartet. Diese läuft nun "normal" seit etwas über einem Tag und steht aktuell bei 47%.

Der neu hinzugefügte Speicherplatz von viermal 3TB wird in der Diskgruppe schon grau angezeigt ("verfügbar 11159,62 GB"), ist aber noch nicht nutzbar, z.B. um ein zweites Volume darauf anzulegen. Dies wird wohl erst nach Abschluss der Reparatur in ein oder zwei Tagen der Fall sein.

Alle anderen Funktionen der DS1815+ laufen ohne Auffälligkeiten.

Die rausgezogene Festplatte, welche die ganze DS1815+ so massiv ausgebremst hat, werde ich in den nächsten Tagen mal mit einem USB-3-Adapter direkt am PC prüfen und schauen, wie sie sich dort verhält.
 
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat