Diskstatus "kritisch" zurücksetzen

dpprdan

Benutzer
Mitglied seit
22. Dez 2023
Beiträge
7
Punkte für Reaktionen
1
Punkte
3
In meiner DS220+ (DSM 7.2.1-69057 Update 3) wird mir seit gestern der Status eines Laufwerks, eine Seagate Exos X16 12TB (ST12000NM003G) als "kritisch" angezeigt. "Beim Zugriff auf das Laufwerk sind Fehler aufgetreten."
Vor drei Tagen hatte ich mehrere "Das System hat einen unerwarteten Stromausfall auf Laufwerk 2 in Volume 1 erkannt." Meldungen. Daraufhin habe, wie empfohlen, den Schreib-Cache deaktiviert.

Ich vermute für beides als Ursache, dass das Netzteil nicht richtig an der DS angeschlossen war und aufgrund dieses Wackelkontakts die Spannung für das Anlaufen der HDD nicht ausreichte. (Beim Anheben der DS fiel der Netzteilstecker hinten einfach runter).

Ansonsten scheint mit der HDD alles in Ordnung zu sein, denn die S.M.A.R.T. Tests (auch einmal "erweitert") laufen ohne Probleme durch, Testergebnis "in Ordnung". Ich würde sie nur sehr ungern tauschen wollen, bei gerade einmal ~1300 Betriebsstunden.

Nun meine Fragen:
  1. Ich finde die Details zu den S.M.A.R.T. nicht. Die sollten doch unter Speicher-Manager > HDD/SSD > Laufwerk > Integritätsstatus > S.M.A.R.T. > Details zu finden sein? Nur, "Details" gibt es bei mir nicht, auch nicht beim nicht betroffenen Laufwerk. Werden die nicht mehr angezeigt oder gucke ich falsch?
  2. Kann ich den Status wieder zurückstellen, damit ich das Volume (SHR-1, BTRFS) reparieren kann? DSM verweigert verständlicherweise die Reparatur auf ein defektes Laufwerk. Nur in diesem Fall scheint der Grund für den Fehler doch eher ein Wackelkontakt als eine defektes Laufwerk zu sein.
Zum Zurücksetzen habe schon diesen und jenen Thread gesehen. Ich habe die Protokolleinträge für "Laufwerke" und "Allgemein" gelöscht (wobei bei mir unter "Laufwerke" keine Meldungen mit Status "Fehler" vorhanden waren, nur unter "Allgemein"), aber auch nach einem Neustart wird der Status noch als kritisch angezeigt. Das scheint also nicht mehr zu funktionieren (siehe auch hier). Fällt Euch noch eine andere Möglichkeit ein, via CLI zum Beispiel?

hdd.png
integrität_überblick.png
integrität_smart.png
integrität_smart2.png
integrität_verlauf1.png
integrität_verlauf2.png
integrität_verlauf3.png
Bei "Anzahl der Neuverbindungen von Laufwerk" und "Anzahl fehlerhafter Sektoren" ist der Wert jeweils auch 0.
 

dil88

Benutzer
Contributor
Sehr erfahren
Mitglied seit
03. Sep 2012
Beiträge
30.612
Punkte für Reaktionen
2.003
Punkte
829
Bitte keine SMART-Tests machen, die belasten die Laufwerke nur unnötig. SMART-Daten werden kontinuierlich von der Platte geschrieben, Du musst sie nur abfragen. Das geht mit DSM 7.2 leider nicht mehr im DSM, weil Synology die Möglichkeit deaktiviert hat - ärgerlicherweise.

Du kannst die SMART-Werte aber per ssh-Kommandozeile abfragen, z.B. mit folgendem Kommando:
Code:
sudo smartctl -A -d sat /dev/sata2

Schau Dir die Werte an. Falls Du Dich damit nicht so auskennst, dann poste sie hier.
 
  • Like
Reaktionen: maxblank

plang.pl

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
28. Okt 2020
Beiträge
15.029
Punkte für Reaktionen
5.400
Punkte
564
Genau. Einmal bitte SMART Werte prüfen / posten. Dann wenn die ok sind, kannst du die Einträge im Protokoll-Center leeren, um den Status zu resetten.
 
  • Like
Reaktionen: dil88

dpprdan

Benutzer
Mitglied seit
22. Dez 2023
Beiträge
7
Punkte für Reaktionen
1
Punkte
3
Danke Euch, SMART Werte einmal hier:

Code:
smartctl 6.5 (build date Sep 26 2022) [x86_64-linux-4.4.302+] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME                                                   FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate                                              0x000f   077   064   044    Pre-fail  Always       -       55054108
  3 Spin_Up_Time                                                     0x0003   090   090   000    Pre-fail  Always       -       0
  4 Start_Stop_Count                                                 0x0032   098   098   020    Old_age   Always       -       2404
  5 Reallocated_Sector_Ct                                            0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate                                                  0x000f   069   060   045    Pre-fail  Always       -       7540357
  9 Power_On_Hours                                                   0x0032   099   099   000    Old_age   Always       -       1320
 10 Spin_Retry_Count                                                 0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count                                                0x0032   098   098   020    Old_age   Always       -       2363
 18 Head_Health                                                      0x000b   100   100   050    Pre-fail  Always       -       0
187 Reported_Uncorrect                                               0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout                                                  0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel                                          0x0022   067   059   040    Old_age   Always       -       33 (Min/Max 33/34)
192 Power-Off_Retract_Count                                          0x0032   100   100   000    Old_age   Always       -       32
193 Load_Cycle_Count                                                 0x0032   099   099   000    Old_age   Always       -       2393
194 Temperature_Celsius                                              0x0022   033   041   000    Old_age   Always       -       33 (0 20 0 0 0)
197 Current_Pending_Sector                                           0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable                                            0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count                                             0x003e   200   200   000    Old_age   Always       -       0
200 Pressure_Limit                                                   0x0023   100   100   001    Pre-fail  Always       -       0
240 Head_Flying_Hours                                                0x0000   100   253   000    Old_age   Offline      -       1304h+51m+48.223s
241 Total_LBAs_Written                                               0x0000   100   253   000    Old_age   Offline      -       4761086443
242 Total_LBAs_Read                                                  0x0000   100   253   000    Old_age   Offline      -       9028145441

kannst du die Einträge im Protokoll-Center leeren, um den Status zu resetten
Ja, das hatte ich schon versucht, ohne Erfolg, s.o.

Bitte keine SMART-Tests machen, die belasten die Laufwerke nur unnötig.
Habe ich inzwischen auch schon gelesen. Auch komisch, dass Synology dann einen erweiterten Test anbietet. Was macht der wohl genau?
 

plang.pl

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
28. Okt 2020
Beiträge
15.029
Punkte für Reaktionen
5.400
Punkte
564
Für mich sieht die Platte gut aus
 
  • Like
Reaktionen: dil88 und dpprdan

dil88

Benutzer
Contributor
Sehr erfahren
Mitglied seit
03. Sep 2012
Beiträge
30.612
Punkte für Reaktionen
2.003
Punkte
829
Ja, die SMART-Daten sind völlig ok.
 
  • Like
Reaktionen: plang.pl und dpprdan

ctrlaltdelete

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
30. Dez 2012
Beiträge
13.346
Punkte für Reaktionen
5.605
Punkte
524
Die HDD ist sauber.
 

dpprdan

Benutzer
Mitglied seit
22. Dez 2023
Beiträge
7
Punkte für Reaktionen
1
Punkte
3
Ja, jetzt brauche ich nur noch eine Möglichkeit, den Status des Laufwerks zurückzusetzen. 😬
 

Benie

Benutzer
Contributor
Sehr erfahren
Mitglied seit
19. Feb 2014
Beiträge
8.283
Punkte für Reaktionen
3.404
Punkte
344
Protokolle mit den Fehlermeldungen löschen. Müsste reichen.
 

dpprdan

Benutzer
Mitglied seit
22. Dez 2023
Beiträge
7
Punkte für Reaktionen
1
Punkte
3
Protokolle mit den Fehlermeldungen löschen. Müsste reichen.
Das reicht leider nicht, s.o.

Edit:
Ich vermute, dass das seit ~ DSM 7.2 nicht mehr funktioniert, sondern die Information, dass ein Laufwerk fehlerhaft ist, irgendwo anders abgelegt wird.
z.B. steht bei mir in /var/lib/space/space_table "faulty_disks":["DISK_SERIENNUMMER"]. Das gleiche in /etc/space/space_table/space_table_*. Wenn man die editiert, werden sie nach dem Reboot allerdings wieder überschrieben...
 
Zuletzt bearbeitet:

plang.pl

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
28. Okt 2020
Beiträge
15.029
Punkte für Reaktionen
5.400
Punkte
564
Gibt's die Datei auch in /etc.defaults?
Dann würd ich die dort mal ändern. Das ist so ein "Spezial-Synology-Verzeichnis"
 
Zuletzt bearbeitet:

dil88

Benutzer
Contributor
Sehr erfahren
Mitglied seit
03. Sep 2012
Beiträge
30.612
Punkte für Reaktionen
2.003
Punkte
829
Nein, ich habe gleich nachgesehen, es gibt bereits das Verzeichnis space nicht unter etc.defaults.
 

ctrlaltdelete

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
30. Dez 2012
Beiträge
13.346
Punkte für Reaktionen
5.605
Punkte
524
Dort habe ich nichts gefunden:
 

Anhänge

  • 1703282205603.png
    1703282205603.png
    95,5 KB · Aufrufe: 14

ctrlaltdelete

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
30. Dez 2012
Beiträge
13.346
Punkte für Reaktionen
5.605
Punkte
524

dpprdan

Benutzer
Mitglied seit
22. Dez 2023
Beiträge
7
Punkte für Reaktionen
1
Punkte
3
@ctrlaltdelete Leider nein. Die Speicherpool-Ansicht sieht so aus:

1703422159258.png

Reparieren mag er nicht, weil das Laufwerk "defekt" ist.

Und richtig, /etc.defaults/space/ existiert nicht. grep -r "MEINE_LAUFWERKSSERIENNUMMER" /etc.defaults/ findet auch nichts.
 

ctrlaltdelete

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
30. Dez 2012
Beiträge
13.346
Punkte für Reaktionen
5.605
Punkte
524
Ich würde das Laufwerk mal extern löschen/formatieren.
 
Zuletzt bearbeitet:

synfor

Benutzer
Sehr erfahren
Mitglied seit
22. Dez 2017
Beiträge
8.995
Punkte für Reaktionen
1.606
Punkte
288
Ist das Laufwerk 2 immer noch dem Speicherpool zugeordnet? Falls ja, dann deaktivieren, raus und wieder rein. Geht dann die Reparatur immer noch nicht, dann kann man das Laufwerk immer noch extern löschen.
 
  • Like
Reaktionen: ctrlaltdelete

dpprdan

Benutzer
Mitglied seit
22. Dez 2023
Beiträge
7
Punkte für Reaktionen
1
Punkte
3
Ist das Laufwerk 2 immer noch dem Speicherpool zugeordnet? Falls ja, dann deaktivieren, raus und wieder rein.
Haha, das war es wirklich! Vielen Dank @synfor!
Anleitung: Speicher-Manager > HDD/SDD > (Betroffenes Laufwerk markieren) > Aktion > Laufwerk deaktivieren. Danach muss der Speicherpool noch repariert werden.

z.B. steht bei mir in /var/lib/space/space_table "faulty_disks":["DISK_SERIENNUMMER"]. Das gleiche in /etc/space/space_table/space_table_*. Wenn man die editiert, werden sie nach dem Reboot allerdings wieder überschrieben...
Der Vollständigkeit halber gibt es den gleichen Eintrag auch in /run/space/space_table. Dieser scheint auch von der Synology GUI gelesen zu werden, d.h. unter Speicher-Manager > HDD/SDD wird das Laufwerk wieder als lauffähig angezeigt, wenn man die Seriennummer hier bei "faulty_disks": löscht. Damit lässt sich das Volume aber noch nicht reparieren und einen Reboot übersteht die Änderung auch nicht.

Aber egal, die Lösung war einfach "Laufwerk deaktivieren". Danke an alle!
 
  • Like
Reaktionen: dil88

shashlik

Benutzer
Mitglied seit
27. Jul 2012
Beiträge
14
Punkte für Reaktionen
5
Punkte
9
Es scheint so, dass die Disk trotz einwandfreier SMART-Werte weiterhin als "kritisch" eingestuft wird und DSM die Option für eine einfache Rücksetzung des Status eingeschränkt hat. Leider sieht es so aus, als ob das seit DSM 7.2 nicht mehr ohne weiteres möglich ist. Die Hinweise, dass die Fehlermeldung inzwischen woanders dauerhaft gespeichert wird (z.B. in den space_table Dateien), scheinen das zu bestätigen.

Eine Möglichkeit wäre tatsächlich, die Datei /etc/space/space_table/space_table_* zu bearbeiten. Allerdings kann DSM diese Änderungen beim Neustart überschreiben. Wenn der Zustand des Laufwerks aber laut SMART tatsächlich stabil ist, wäre vielleicht der Austausch des Laufwerks eine zu drastische Maßnahme. Eventuell bleibt der Weg über den Synology-Support, um herauszufinden, ob es eine offiziell unterstützte Möglichkeit gibt, die Statusanzeige zurückzusetzen, ohne das Laufwerk zu ersetzen.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat