DS220+, Ironwolf-Volume 1 kritisch

Almaran · 31. Mrz 2024

Guten Morgen,

man wird geweckt mit dem engelsgleichen Piepen der Diskstation, mein Hirn schlägt gerade Purzelbäume.
Ich weiß, dass es dieses Thema öfter gibt ;-), aber ich suche gerade einordnung damit ich nicht noch mehr kaputt mache, bitte.

Im September 2022 meine DS220+ mit zwei neuen Ironwolf (ST4000VN008-2DR166), 4TB, gestartet.

Heute morgen dann ist der Speicherpool bei Volume 1 kritisch, Volume 2 wird noch normal angezeigt. Ich habe das NAS nun erstmal heruntergefahren.

Informationen zum Laufwerk
Hersteller: Seagate
Modell: ST4000VN008-2DR166
Größe: 3.600000 TB
Seriennummer: ZDHB7D5Z
Firmware-Version: SC60
Zuordnungsrolle: Storage Pool 1

Seht ihr einen Fehler, ich weiß noch, dass das damals ein ziemliches gesuche war, welche HDD nun für ein NAS geeignet ist und welche nicht. Vielleicht hab ich hier doch die falsche gekauft?
Die Diskstation empfielt: "Die Anzahl fehlerhafter Sektoren auf Laufwerk 1 von DS220+ hat zugenommen. Wir empfehlen eine Datenbereinigung, um die Datenkonsistenz sicherzustellen." Kann ich das wirklich tun, ich hänge schon an meinen Daten..
Ich gehe davon aus, dass ich die Festplatte ersetzten muss, nach nicht mal zwei Jahren... Kann ich neben die noch funktionierende Festplatte auch z.B. eine Westerndigital nutzen? (Die letzten liefen 8 Jahre ohne Fehler..) oder sollte ich dann besser beide tauschen?
Die Speicherbereinigung/Datenbereinigung bzw. das Ironwolf-Health-Management hat bis heute keinen Fehler gefunden, kann das sein? heut jetzt auf gleich? ist ja keine SSD..

ich wäre euch sehr dankbar für eine Einordnung. Mache mich dann auf die Suche nach einer neuen Platte und Tutorials wie ich meine Daten zumindest von Volume 2 noch retten kann. Für Hinweise wäre ich auch da sehr dankbar.
Gruß
Al

plang.pl · 31. Mrz 2024

Die Platte ist schon NAS geeignet. Eventuell hast du auf die Seagate noch Garantie?
Und ja, kannst auch ne andere Platte mit reinstecken.
Als allererstes Daten sichern. Falls du kein Backup hast, musst du hoffen, dass dabei nicht die zweite Platte aussteigt.
Wenn die Daten gesichert sind, bitte einmal die SMART-Werte der Platten auslesen und posten. Anleitung siehe meine Signatur.

Almaran · 31. Mrz 2024

Doch ein Backup hab ich/ sollte ich haben. Zumindest von den Daten.
Das heißt aber, ich sollte damit rechnen, dass die zweite Plate auch zeitnah aussteigt.

Würde es Sinn machen, die kaputte Plätze auszubauen, und nochmal manuell das Backup anzustoßen? Oder lieber warten auf ne neue Platte?

plang.pl · 31. Mrz 2024

Das Backup kannst du doch auch machen, wenn die Platte noch drin ist.
Ich würd aber erstmal wie von mir geschrieben die SMART-Werte prüfen / posten, um zu sehen, ob es überhaupt ein Hardwaredeffekt der Platte ist.
Bei einer so jungen Platte ist es nicht so wahrscheinlich, dass diese beim RAID-Rebuild abraucht wie bei einer alten. Die Möglichkeit besteht aber. Aus dem Grund würd ich gleich die Werte beider Platten prüfen.

Almaran · 31. Mrz 2024

Okay. Danke dir. Das kann ich dann erst heute Abend machen, natürlich passiert sowas Ostersonntag, nach Zeitumstellung und mit großen Plänen im Schlepptau. Herrlich. Ich melde mich.

Laola1 · 31. Mrz 2024

Moin, ich glaube du bringst hier Begriffe durcheinander.
Du hast laut Bild einen Pool mit 2 HDD, auf dem ein 1 Volume eingerichtet ist.
Mach mal davon ein Bild und poste es hier.
Sollte etwa so aussehen.
Wenn dem so ist, neue HDD einschieben, Pool reparieren lassen, 3-12 Stunden warten, erledigt.

synfor · 31. Mrz 2024

Laola1 schrieb:
Du hast laut Bild einen Pool mit 2 HDD, auf dem ein 1 Volume eingerichtet ist.

Dass der Pool aus beiden HDDs besteht, gibt der Screenshot nicht her. Die Infos zu der 2. Platte sind nämlich nicht mehr mit drauf.

Laola1 · 31. Mrz 2024

Ja das stimmt aber der linke Bereich lässt es vermuten

synfor · 31. Mrz 2024

Und wenn deine Vermutung nun falsch ist?

Almaran · 31. Mrz 2024

also, anbei ein Screenshot des Speicherpools 1, mit zwei Festplatten HDD 1 und HDD 2. Das HDD 1 ist kritisch.

Die Smart-Ergebnisse, den "Raw-Error-Rate" habe ich via Error Rate Calulator umgerechnet.

HDD 1:

smartctl 6.5 (build date Sep 26 2022) [x86_64-linux-4.4.302+] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 050 049 044 Pre-fail Always - 19010742 = 73
3 Spin_Up_Time 0x0003 094 093 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 628
5 Reallocated_Sector_Ct 0x0033 098 098 010 Pre-fail Always - 664
7 Seek_Error_Rate 0x000f 084 060 045 Pre-fail Always - 241371218
9 Power_On_Hours 0x0032 090 090 000 Old_age Always - 9184 (123 185 0)
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 622
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 001 001 000 Old_age Always - 149
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 071 057 040 Old_age Always - 29 (Min/Max 24/29)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 4
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 630
194 Temperature_Celsius 0x0022 029 043 000 Old_age Always - 29 (0 15 0 0 0)
197 Current_Pending_Sector 0x0012 036 036 000 Old_age Always - 5304
198 Offline_Uncorrectable 0x0010 036 036 000 Old_age Offline - 5304
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 9182h+16m+00.075s
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 13157879635
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 12263528319

HDD 2

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 081 064 044 Pre-fail Always - 132280954 = 81
3 Spin_Up_Time 0x0003 093 093 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 629
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 084 060 045 Pre-fail Always - 247550065
9 Power_On_Hours 0x0032 090 090 000 Old_age Always - 9186 (38 47 0)
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 623
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 069 058 040 Old_age Always - 31 (Min/Max 25/31)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 4
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 635
194 Temperature_Celsius 0x0022 031 042 000 Old_age Always - 31 (0 16 0 0 0)
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 9184h+23m+01.777s
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 18378938332
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 64664011437

dil88 · 31. Mrz 2024

Aus meiner Sicht ist die erste Platte am sterben, die zweite sollte ok sein.

synfor · 31. Mrz 2024

Almaran schrieb:
Die Smart-Ergebnisse, den "Raw-Error-Rate" habe ich via Error Rate Calulator umgerechnet.

Mit welchem? Alle mir bekannten liefern da bei beiden Platten nämlich 0 Fehler. Außerdem stimmt bei der 2 Platte der Rohwert für ID1 nicht mit dem Screenshot überein.

Platte 1 ist aber dennoch am Sterben (ID5, 197, 198) und ist auch bereits aus dem RAID geflogen.

Almaran · 31. Mrz 2024

Kann sich das geändert haben? für den Screenshot habe ich eine andere Methode SMART Tuturial genutzt, um das ganze vllt. besser lesbar zu bekommen..

So, habe nun die Werte aus dem Screenshot zititert. Dann interpretiere ich die Zahl aus dem Calculator wahrscheinlich falsch.

Wo siehst du, dass sie bereits rausgeflogen ist?

synfor · 31. Mrz 2024

Nun dem Pool ist sie noch zugeordnet. Der Speichermanager sagt aber auch unzureichende Anzahl von Laufwerken und gibt an, dass eine fehlt.

ctrlaltdelete · 01. Apr 2024

HDD 1 ist tot, tauschen und Speicherpool reparieren.

Laola1 · 01. Apr 2024

Moin, und frohe Ostern.
HDD 1 stirbt, entfernen und durch eine HDD gleicher Größe oder größer ersetzen.
Danach reparieren und es ist erledigt.

Almaran · 01. Apr 2024

Ich habe bei Seagate noch Gewährleistung. Ich soll die Platte als rma einsenden und die schicken eine neue. Ich bin eigentlich kein Fan von Festplatten per Post.. und nun auch nicht mehr von Seagate ;-). Die Diskstation bietet mir noch an, die Platte zu löschen, sollte ich schon machen, sofern das noch geht oder?

plang.pl · 01. Apr 2024

Wenn du nur das Volume und den Pool und den Pool löscht. kann man die Daten dennoch auslesen. Ich würde die Platte an einen PC anschließen und einmal überschreiben. Und ich hatte auch schon mal ne tote Platte, die relativ neu war. Wurde ebenfalls per Post getauscht, Das Austauschmodell lief einwandfrei.

synfor · 01. Apr 2024

Almaran schrieb:
Ich habe bei Seagate noch Gewährleistung.

Nur wenn du die Platte direkt bei Seagate gekauft hast. ansonsten hast du da bei Seagate nur die Garantie.

Almaran · 13. Apr 2024

Hallo zusammen. Hab von Seagate tatsächlich einen Ersatz erhalten. Ein Recertified product, aber das scheint wohl üblich. Da ich nicht so Recht an den Vorgang glaubte, habe ich aber inzwischen Ersatz besorgt. Würdet ihr die neue Platte nun durch den Ersatz tauschen? Schliesslich läuft die Garantie ja weiter..

DS220+, Ironwolf-Volume 1 kritisch

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Kaffeautomat