Anzahl Neuverbindungen steigt - Command Timeout ebenfalls

vater · 03. Okt 2018

Hallo zusammen,

in meiner RS2414+ habe ich eine HDD, deren "Neuverbindungen" über die Monate ansteigt. Ich habe eigentlich keine Probleme mit dem Volume. Der Wert für die Command Timeouts lässt mich aber vermuten, dass die Platte oft "hängt". Es kommt dabei offenbar aber nicht immer zu einer "Neuverbindung".

HDDs zum Vergleich:

Ich habe die HDD aus Slot 10 heute mal bei ausgeschalteter Hardware gezogen, gereinigt und wieder gesteckt. Mal schaun ob das etwas bringt.

Ansonsten würde ich mal versuchen, die HDD aus z.B. Slot 9 und 10 gegeneinander zu tauschen. Das sollte die RAID Logik sicher mitbekommen. Ist ja nicht mehr so, wie bei den alten Hardware RAID Controllern..

Oder deutet eurer Meinung nach einer der Smartwerte auf ein andersgelagertes Problem?

Vielen Dank fürs drüberschaun und viele Grüße
Vater

dil88 · 03. Okt 2018

Die SMART-Werte sehen m.E. ansonsten gut aus. Deine Überlegungen halte ich für vernünftig, mehr fällt mir ehrlich gesagt auch nicht ein.

vater · 03. Okt 2018

Danke für deine schnelle Einschätzung. Ich habe gerade mal einen ausführlichen Smart-Test gestartet, um gezielt diese eine Platte etwas zu fordern. Mal gucken wie sich das auf die Zahlen auswirkt. Ansonsten steht in den nächsten Tagen das RAID-Scrubbing des Volumes an. Spätestens DAS sorgt dann für ordentlich Load. Wo ich das so schreibe und mir nochmal den Verlauf ansehe.. ..das könnte durchaus zusammenpassen. Die Scrubbing Durchläufe und der Anstieg der Neuverbindungen. Na ich werde berichten.

vater · 07. Okt 2018

Update. Das ziehen und stecken der HDD A im Slot 10 hat leider nichts gebracht. Während des RAID-Scrubbings kam direkt wieder eine "Neuverbindung" hinzu. HDD A hat nun insg. 69 Neuverbindungen.

Daraufhin habe ich HDD A in Slot 9 und HDD B (vormals in Slot 9) in Slot 10 gesteckt und erneut ein RAID-Scrubbing gestartet. Und siehe da, nach ca. 25% kam bei HDD B in Slot 10 die erste "Neuverbindung" hinzu.

EDIT: Diese Historie ergänzt.

HDD A, neuerdings ja in Slot 9, blieb bei den 69 Neuverbindungen.

Das ist für mich ein bisschen der Worstcase, da ich mir "gewünscht" hätte, dass der Fehler samt der Platte (HDD A) mitwandert. So sieht es mehr nach defektem Slot aus..

Was mich obendrein etwas verunsichert ist, dass das Scrubbing offenbar mit Auftreten der Neuverbindung oder kurz danach "erfolgreich" beendet wird. Im Log gibts aber keine Fehlermeldung dazu. Es findet sich nur den Hinweis, dass es fertig ist. Das kann vielelicht auch am neuen Smart-Scrubbing des DSM 6.2 liegen. Ich glaube da etwas gelesen zu haben.

vater · 07. Okt 2018

Hier noch der direkte Vergleich von HDD-B

Frisch und munter in Slot 9

..und nach 95 Stunden / 4 Tagen in Slot 10

dil88 · 08. Okt 2018

Ja, das deutet auf ein Problem der Backplane hin. Falls Du Dir die ansehen könntest, würde ich mir 'mal die Lötung ansehen. Es gibt fiese Bilder hier im Forum von schwachen bis fehlenden Lötstellen. Ansonsten müsstest Du wohl die DS tauschen lassen.

vater · 08. Okt 2018

Danke für dein schnelles Feedback. Ich melde mich wieder, sobald ich weitergekommen bin.

Reifi · 31. Okt 2020

Hallo @vater, darf ich fragen, wie die Sache ausgegangen ist?

vater · 31. Okt 2020

@dil88 Hinweis auf die Backplane wurde vom Support bestätigt. Darüber hinaus wäre das von mir beschriebene plötzliche Ende des scrubbings ok.

Ein Austausch der Backplane ist unwirtschaftlich. Solange keine harten Fehler auftreten und die Datenträgerbereinigung (RAID Scrubbing) monatlich, sowie die Backups inkl. Integrity Checks täglich ohne Fehler durchlaufen, warte ich händeringend auf eine neue Version der RS2414+.

Dann erfolgt auch meine Sichtprüfung ggf. inkl. Nachlöten der Backplane. Fotos gibt es dann gerne auch in diesem Thread.

vater · 15. Sep 2021

Hallo zusammen,

um hier den Kreis zu schließen..
..durch einen anderen Thread habe ich einen Lieferanten für Synology Ersatzteile gefunden und so konnte ich für ca. 40 EUR eine Backplane ordern und austauschen. Bei der Bestellung "einer Backplane" (es gab in dem Shop keine Bilder) für die RS2414..
..zur Erinnerung (2HE, 12 HDDs):

..hat mich die Lieferung "EINER Backplane" doch etwas überrascht:

Eine einzige schmale Backplane mit vier Ports. Sie ist keine zwei Finger hoch,

Ich sag mal so, Die Beschreibung im Shop halte ich für technisch korrekt, aber moralisch anfechtbar.

Zu dem Zeitpunkt wusste ich noch nicht, dass "die Backplane" aus drei Backplanes besteht (Bild aus dem MuseumsThread (Link):

Backplane einer RS2414+, die aus drei schmalen Backplanes mit je 4 SATA Ports besteht.

War aber nicht weiter schlimm, denn es ist ja eh nur einer der Ports betroffen. Also gesagt getan und die betroffene Backplane getauscht.

Anschließend habe ich die fragliche Platte an dem Port gezielt belastet (Smart Test, Benchmark)

Und da war der Fehler wieder: "Das System hat eine Zeitüberschreitung bei E/A-Befehl erkannt, es kann jedoch weiterhin einwandfrei arbeiten und dieses Laufwerk überwachen."

Smart sagt zu dieser HDD:

Hier zwei HDDs gleichen Typs in anderen Slots:

Weiterhin ist das RAID nicht degraded. Aber ich werde mal versuchen die fragliche HDD demnächst zu ersetzen. Die darf dann noch in einem externen Gehäuse mitspielen.

EwaldM · 02. Nov 2021

Vielen Dank für die Informationen.
Hänge mich daran an diesen Thread, da ich die gleiche Fehelrmeldung für IronWolf Festplatten (Bei anderen nicht, sind aber die ältesten) bekomme:
Das System hat eine Zeitüberschreitung bei E/A-Befehl erkannt, es kann jedoch weiterhin einwandfrei arbeiten und dieses Laufwerk überwachen.

Zusätzlich sind bei Laufwerk 4 Errors aufgetreten siehe Protokol und der Zustand ist auf kritisch gewechselt.
Protokoll:

Zustand: Laufwerk 4:

Anbei die Smart Werte von Laufwerk 4:

Zum Vergleich die anderen 3 IronWolf Laufwerk:
Laufwerk 1:

Laufwerk 2:

Laufwerk 3:

Was man sieht dass der Roh Smart Werte 188 Command_Timeout_Count doppelt so hoch beim Laufwerk 4 ist. Die genau Bedeutung kenne ich nicht.
Es scheint so als ob die Fehler Last abhänig sind.(siehe Protokol) D.h. treten nur auf, wenn die Festplatten intensiv arbeiten.
Wollte eigentlich das Laufwerk 4 austauschen. Jedoch habe ich dann noch einen RAM Test gemacht. Leider schlug dieser RAM Test mehrmals fehl. Ich bin da in kontakt mit Synology (leider bisher nur standart Antwort solle RamTest wiederholen logs hoch laden usw.), möchte gerne das die DS1821+ ausgetauscht bzw. repariert wird, ist nicht einmal ein 1/2 Jahr alt, bevor ich die Festplatten austausche. Mache nochmal Backups. Denke das sollte nicht schaden, da das Raid noch läuft. Oder doch?

Denkt Ihr es liegt an der DS1821+ oder an den Festplatten? Oder an beidem?

Suche

Anzahl Neuverbindungen steigt - Command Timeout ebenfalls

vater

Benutzer

dil88

Benutzer

vater

Benutzer

vater

Benutzer

vater

Benutzer

dil88

Benutzer

vater

Benutzer

Reifi

Benutzer

vater

Benutzer

vater

Benutzer

EwaldM

Benutzer

Kaffeautomat