Anzahl Neuverbindungen steigt - Command Timeout ebenfalls

vater

Benutzer
Contributor
Mitglied seit
14. Mrz 2014
Beiträge
487
Punkte für Reaktionen
107
Punkte
43
Hallo zusammen,

in meiner RS2414+ habe ich eine HDD, deren "Neuverbindungen" über die Monate ansteigt. Ich habe eigentlich keine Probleme mit dem Volume. Der Wert für die Command Timeouts lässt mich aber vermuten, dass die Platte oft "hängt". Es kommt dabei offenbar aber nicht immer zu einer "Neuverbindung".


hdd10_smart.JPG
hdd10verlauf_smart.JPG

HDDs zum Vergleich:

hdd07_smart.JPG
hdd08_smart.JPG
hdd09_smart.JPG

Ich habe die HDD aus Slot 10 heute mal bei ausgeschalteter Hardware gezogen, gereinigt und wieder gesteckt. Mal schaun ob das etwas bringt.

Ansonsten würde ich mal versuchen, die HDD aus z.B. Slot 9 und 10 gegeneinander zu tauschen. Das sollte die RAID Logik sicher mitbekommen. Ist ja nicht mehr so, wie bei den alten Hardware RAID Controllern..

Oder deutet eurer Meinung nach einer der Smartwerte auf ein andersgelagertes Problem?

Vielen Dank fürs drüberschaun und viele Grüße
Vater
 

dil88

Benutzer
Contributor
Sehr erfahren
Mitglied seit
03. Sep 2012
Beiträge
30.674
Punkte für Reaktionen
2.077
Punkte
829
Die SMART-Werte sehen m.E. ansonsten gut aus. Deine Überlegungen halte ich für vernünftig, mehr fällt mir ehrlich gesagt auch nicht ein.
 

vater

Benutzer
Contributor
Mitglied seit
14. Mrz 2014
Beiträge
487
Punkte für Reaktionen
107
Punkte
43
Danke für deine schnelle Einschätzung. Ich habe gerade mal einen ausführlichen Smart-Test gestartet, um gezielt diese eine Platte etwas zu fordern. Mal gucken wie sich das auf die Zahlen auswirkt. Ansonsten steht in den nächsten Tagen das RAID-Scrubbing des Volumes an. Spätestens DAS sorgt dann für ordentlich Load. Wo ich das so schreibe und mir nochmal den Verlauf ansehe.. ..das könnte durchaus zusammenpassen. Die Scrubbing Durchläufe und der Anstieg der Neuverbindungen. Na ich werde berichten.
 

vater

Benutzer
Contributor
Mitglied seit
14. Mrz 2014
Beiträge
487
Punkte für Reaktionen
107
Punkte
43
Update. Das ziehen und stecken der HDD A im Slot 10 hat leider nichts gebracht. Während des RAID-Scrubbings kam direkt wieder eine "Neuverbindung" hinzu. HDD A hat nun insg. 69 Neuverbindungen.

Daraufhin habe ich HDD A in Slot 9 und HDD B (vormals in Slot 9) in Slot 10 gesteckt und erneut ein RAID-Scrubbing gestartet. Und siehe da, nach ca. 25% kam bei HDD B in Slot 10 die erste "Neuverbindung" hinzu.


hddslot10_smart_view_ehem9.JPG

hddslot10_smart_ehem9.JPG

hddslot10_history_ehem9.JPG
EDIT: Diese Historie ergänzt.

HDD A, neuerdings ja in Slot 9, blieb bei den 69 Neuverbindungen.
hddslot09_smart_view_ehem10.JPG

hddslot9_smart_ehem10.JPG


Das ist für mich ein bisschen der Worstcase, da ich mir "gewünscht" hätte, dass der Fehler samt der Platte (HDD A) mitwandert. So sieht es mehr nach defektem Slot aus..

Was mich obendrein etwas verunsichert ist, dass das Scrubbing offenbar mit Auftreten der Neuverbindung oder kurz danach "erfolgreich" beendet wird. Im Log gibts aber keine Fehlermeldung dazu. Es findet sich nur den Hinweis, dass es fertig ist. Das kann vielelicht auch am neuen Smart-Scrubbing des DSM 6.2 liegen. Ich glaube da etwas gelesen zu haben.
 
Zuletzt bearbeitet:

vater

Benutzer
Contributor
Mitglied seit
14. Mrz 2014
Beiträge
487
Punkte für Reaktionen
107
Punkte
43
Hier noch der direkte Vergleich von HDD-B

Frisch und munter in Slot 9
HDD-B_slot9.JPG

..und nach 95 Stunden / 4 Tagen in Slot 10
HDD-B_slot10.JPG
 

dil88

Benutzer
Contributor
Sehr erfahren
Mitglied seit
03. Sep 2012
Beiträge
30.674
Punkte für Reaktionen
2.077
Punkte
829
Ja, das deutet auf ein Problem der Backplane hin. Falls Du Dir die ansehen könntest, würde ich mir 'mal die Lötung ansehen. Es gibt fiese Bilder hier im Forum von schwachen bis fehlenden Lötstellen. Ansonsten müsstest Du wohl die DS tauschen lassen.
 

vater

Benutzer
Contributor
Mitglied seit
14. Mrz 2014
Beiträge
487
Punkte für Reaktionen
107
Punkte
43
Danke für dein schnelles Feedback. Ich melde mich wieder, sobald ich weitergekommen bin.
 

Reifi

Benutzer
Mitglied seit
08. Mrz 2016
Beiträge
15
Punkte für Reaktionen
1
Punkte
3
Hallo @vater, darf ich fragen, wie die Sache ausgegangen ist?
 

vater

Benutzer
Contributor
Mitglied seit
14. Mrz 2014
Beiträge
487
Punkte für Reaktionen
107
Punkte
43
@dil88 Hinweis auf die Backplane wurde vom Support bestätigt. Darüber hinaus wäre das von mir beschriebene plötzliche Ende des scrubbings ok.

Ein Austausch der Backplane ist unwirtschaftlich. Solange keine harten Fehler auftreten und die Datenträgerbereinigung (RAID Scrubbing) monatlich, sowie die Backups inkl. Integrity Checks täglich ohne Fehler durchlaufen, warte ich händeringend auf eine neue Version der RS2414+.

Dann erfolgt auch meine Sichtprüfung ggf. inkl. Nachlöten der Backplane. Fotos gibt es dann gerne auch in diesem Thread. :)
 
  • Like
Reaktionen: dil88 und Reifi

vater

Benutzer
Contributor
Mitglied seit
14. Mrz 2014
Beiträge
487
Punkte für Reaktionen
107
Punkte
43
Hallo zusammen,

um hier den Kreis zu schließen..
..durch einen anderen Thread habe ich einen Lieferanten für Synology Ersatzteile gefunden und so konnte ich für ca. 40 EUR eine Backplane ordern und austauschen. Bei der Bestellung "einer Backplane" (es gab in dem Shop keine Bilder) für die RS2414..
..zur Erinnerung (2HE, 12 HDDs):
RS2414+ mit 12 Slots und 2 HEs
..hat mich die Lieferung "EINER Backplane" doch etwas überrascht:

Eine einzige schmale Backplane mit vier Ports. Sie ist keine zwei Finger hoch,

Ich sag mal so, Die Beschreibung im Shop halte ich für technisch korrekt, aber moralisch anfechtbar. ;)

Zu dem Zeitpunkt wusste ich noch nicht, dass "die Backplane" aus drei Backplanes besteht (Bild aus dem MuseumsThread (Link):
Backplane einer RS2414+, die aus drei schmalen Backplanes mit je 4 SATA Ports besteht.

War aber nicht weiter schlimm, denn es ist ja eh nur einer der Ports betroffen. Also gesagt getan und die betroffene Backplane getauscht.

Anschließend habe ich die fragliche Platte an dem Port gezielt belastet (Smart Test, Benchmark)

Und da war der Fehler wieder: "Das System hat eine Zeitüberschreitung bei E/A-Befehl erkannt, es kann jedoch weiterhin einwandfrei arbeiten und dieses Laufwerk überwachen."
Das System hat eine Zeitüberschreitung bei E/A-Befehl erkannt, es kann jedoch weiterhin einwandfrei arbeiten und dieses Laufwerk überwachen.

Smart sagt zu dieser HDD:
1631733620164.png
Hier zwei HDDs gleichen Typs in anderen Slots:
1631733991657.png


1631733726573.png

Weiterhin ist das RAID nicht degraded. Aber ich werde mal versuchen die fragliche HDD demnächst zu ersetzen. Die darf dann noch in einem externen Gehäuse mitspielen.
 

EwaldM

Benutzer
Mitglied seit
07. Jun 2021
Beiträge
9
Punkte für Reaktionen
0
Punkte
1
Vielen Dank für die Informationen.
Hänge mich daran an diesen Thread, da ich die gleiche Fehelrmeldung für IronWolf Festplatten (Bei anderen nicht, sind aber die ältesten) bekomme:
Das System hat eine Zeitüberschreitung bei E/A-Befehl erkannt, es kann jedoch weiterhin einwandfrei arbeiten und dieses Laufwerk überwachen.

Zusätzlich sind bei Laufwerk 4 Errors aufgetreten siehe Protokol und der Zustand ist auf kritisch gewechselt.
Protokoll:
1635836754549.pngZustand: Laufwerk 4:
1635836785951.png
Anbei die Smart Werte von Laufwerk 4:
1635837075438.png

Zum Vergleich die anderen 3 IronWolf Laufwerk:
Laufwerk 1:
1635837212598.png
Laufwerk 2:
1635837251062.png

Laufwerk 3:
1635837302891.png

Was man sieht dass der Roh Smart Werte 188 Command_Timeout_Count doppelt so hoch beim Laufwerk 4 ist. Die genau Bedeutung kenne ich nicht.
Es scheint so als ob die Fehler Last abhänig sind.(siehe Protokol) D.h. treten nur auf, wenn die Festplatten intensiv arbeiten.
Wollte eigentlich das Laufwerk 4 austauschen. Jedoch habe ich dann noch einen RAM Test gemacht. Leider schlug dieser RAM Test mehrmals fehl. Ich bin da in kontakt mit Synology (leider bisher nur standart Antwort solle RamTest wiederholen logs hoch laden usw.), möchte gerne das die DS1821+ ausgetauscht bzw. repariert wird, ist nicht einmal ein 1/2 Jahr alt, bevor ich die Festplatten austausche. Mache nochmal Backups. Denke das sollte nicht schaden, da das Raid noch läuft. Oder doch?

Denkt Ihr es liegt an der DS1821+ oder an den Festplatten? Oder an beidem?
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat