DSM 7.2 Volume 1 schreibgeschützt

Sanafana

Benutzer
Mitglied seit
21. Sep 2018
Beiträge
17
Punkte für Reaktionen
6
Punkte
3
Moin zusammen,
ich fasse kurz zusammen: Laut Logs ist das Volume 1 auf unserem RS3618xs gegen 2:30Uhr heute morgen in den Zustand "schreibgeschützt" geändert worden. VPN, Terminalserver etc. alles down, AD liegt schließlich auf dem NAS.

Genutzt wird ein RAID 6, mit 6 x 10TB IronWolf Platten, 2x 10Tb HotSpare und SSD-Cache. DSM-Version ist 7.2-64570... wir sind aktuell am Debuggen. Eventuell hat jemand einen nützlichen Tipp, aber "mal eben irgendwo hin backupen" oder "mal eben S.M.A.R.T. durchlaufen lassen" hilft mir nicht, dauert (erstmal) alles zu lange.

Natürlich existiert ein Full-OffSite-Backup, das organisieren wir gerade alles parallel :).

Beste Grüße!
 

ctrlaltdelete

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
30. Dez 2012
Beiträge
13.633
Punkte für Reaktionen
5.809
Punkte
524
Screenshots vom Speichermanager bitte und Details der SMART Werte, keinen Test machen!
Zusätzlich Synology Support kontaktieren.
Edit: Was ist denn um 2:30 Uhr passiert?
 
Zuletzt bearbeitet:

ctrlaltdelete

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
30. Dez 2012
Beiträge
13.633
Punkte für Reaktionen
5.809
Punkte
524
Ich meine es gab schon Fälle, in welchen der Support das Volume bzw. Dateisystem korrigieren konnte und wieder aktivieren konnte.
Das es über löschen und neu anlegen geht ist mir bewusst.
 
  • Like
Reaktionen: Sanafana

Sanafana

Benutzer
Mitglied seit
21. Sep 2018
Beiträge
17
Punkte für Reaktionen
6
Punkte
3
Screenshots vom Speichermanager bitte und Details der SMART Werte, keinen Test machen!
Zusätzlich Synology Support kontaktieren.
Edit: Was ist denn um 2:30 Uhr passiert?
Um 2:30Uhr ist nichts passiert, alles im Idle, die Backups sind da schon lange durch. Wir sichern OffSite auf ein zweites NAS und die wichtigsten Sachen außerdem noch zu Hetzner in 'ne StorageBox.

Danke für den Hilfeartikel @mayo007, den hab ich auch schon gefunden. Ist für mich aber aktuell keine Option "mal eben alles zu backupen und 'n neues Volume zu erstellen. Wäre meine letzte Option, aktuell hoffe ich noch ein bisschen auf ein Wunder :)
 

Anhänge

  • Bildschirmfoto 2023-10-18 um 10.52.43.png
    Bildschirmfoto 2023-10-18 um 10.52.43.png
    92,3 KB · Aufrufe: 19
  • Bildschirmfoto 2023-10-18 um 10.59.11.png
    Bildschirmfoto 2023-10-18 um 10.59.11.png
    108,1 KB · Aufrufe: 20
  • Bildschirmfoto 2023-10-18 um 10.59.32.png
    Bildschirmfoto 2023-10-18 um 10.59.32.png
    136,1 KB · Aufrufe: 18
  • Bildschirmfoto 2023-10-18 um 10.59.37.png
    Bildschirmfoto 2023-10-18 um 10.59.37.png
    149,8 KB · Aufrufe: 17
  • Bildschirmfoto 2023-10-18 um 10.59.42.png
    Bildschirmfoto 2023-10-18 um 10.59.42.png
    109,8 KB · Aufrufe: 16
  • Bildschirmfoto 2023-10-18 um 10.59.53.png
    Bildschirmfoto 2023-10-18 um 10.59.53.png
    139,4 KB · Aufrufe: 15
  • Bildschirmfoto 2023-10-18 um 11.00.00.png
    Bildschirmfoto 2023-10-18 um 11.00.00.png
    142,8 KB · Aufrufe: 14
  • Bildschirmfoto 2023-10-18 um 11.00.04.png
    Bildschirmfoto 2023-10-18 um 11.00.04.png
    108,8 KB · Aufrufe: 11
  • Bildschirmfoto 2023-10-18 um 11.00.19.png
    Bildschirmfoto 2023-10-18 um 11.00.19.png
    133,5 KB · Aufrufe: 14
  • Bildschirmfoto 2023-10-18 um 10.59.06.png
    Bildschirmfoto 2023-10-18 um 10.59.06.png
    146,9 KB · Aufrufe: 11
  • Bildschirmfoto 2023-10-18 um 10.59.00.png
    Bildschirmfoto 2023-10-18 um 10.59.00.png
    133,8 KB · Aufrufe: 13
  • Bildschirmfoto 2023-10-18 um 10.58.41.png
    Bildschirmfoto 2023-10-18 um 10.58.41.png
    109,1 KB · Aufrufe: 16
  • Bildschirmfoto 2023-10-18 um 10.52.56.png
    Bildschirmfoto 2023-10-18 um 10.52.56.png
    183,7 KB · Aufrufe: 14
  • Bildschirmfoto 2023-10-18 um 10.53.01.png
    Bildschirmfoto 2023-10-18 um 10.53.01.png
    118,1 KB · Aufrufe: 13
  • Bildschirmfoto 2023-10-18 um 10.53.12.png
    Bildschirmfoto 2023-10-18 um 10.53.12.png
    134,3 KB · Aufrufe: 13
  • Bildschirmfoto 2023-10-18 um 10.56.28.png
    Bildschirmfoto 2023-10-18 um 10.56.28.png
    135,8 KB · Aufrufe: 14
  • Bildschirmfoto 2023-10-18 um 10.56.35.png
    Bildschirmfoto 2023-10-18 um 10.56.35.png
    145,6 KB · Aufrufe: 14
  • Bildschirmfoto 2023-10-18 um 10.56.41.png
    Bildschirmfoto 2023-10-18 um 10.56.41.png
    112,3 KB · Aufrufe: 12
  • Bildschirmfoto 2023-10-18 um 10.58.31.png
    Bildschirmfoto 2023-10-18 um 10.58.31.png
    115 KB · Aufrufe: 12
  • Bildschirmfoto 2023-10-18 um 10.58.36.png
    Bildschirmfoto 2023-10-18 um 10.58.36.png
    148 KB · Aufrufe: 20

Sanafana

Benutzer
Mitglied seit
21. Sep 2018
Beiträge
17
Punkte für Reaktionen
6
Punkte
3
Hier noch die letzten beiden Bilder von Laufwerk 8
 

Anhänge

  • Bildschirmfoto 2023-10-18 um 11.00.23.png
    Bildschirmfoto 2023-10-18 um 11.00.23.png
    145,8 KB · Aufrufe: 8
  • Bildschirmfoto 2023-10-18 um 11.00.28.png
    Bildschirmfoto 2023-10-18 um 11.00.28.png
    96,5 KB · Aufrufe: 8

ctrlaltdelete

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
30. Dez 2012
Beiträge
13.633
Punkte für Reaktionen
5.809
Punkte
524
Es gibt auf 2 HDDs ein paar reallocated Sectors, sollte aber nicht das Problem sein, prüf doch mal die Werte 1 und 7, aller HDDs mit dieser Webseite:
https://s.i.wtf/#00003AEDB3B2
Was für Möglichkeiten hast du unter den 3 Punkten rechts im Speichermanager beim Volume1?
 
  • Like
Reaktionen: Sanafana

Thonav

Benutzer
Sehr erfahren
Mitglied seit
16. Feb 2014
Beiträge
7.890
Punkte für Reaktionen
1.510
Punkte
274
ID195 ist auch auffällig.
 

Sanafana

Benutzer
Mitglied seit
21. Sep 2018
Beiträge
17
Punkte für Reaktionen
6
Punkte
3
Aktuell ist der Plan ein 30Tb Volume auf dem NAS selbst zu erzeugen mit den freien Slots und die Daten dahin zu schieben/sichern
Was für Möglichkeiten hast du unter den 3 Punkten rechts im Speichermanager beim Volume1?
Entfernen und Einstellungen

Habe alle Werte unter deinem Link eingefügt -> Keine Fehler.
 

Anhänge

  • Bildschirmfoto 2023-10-18 um 11.31.07.png
    Bildschirmfoto 2023-10-18 um 11.31.07.png
    232,8 KB · Aufrufe: 11

ctrlaltdelete

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
30. Dez 2012
Beiträge
13.633
Punkte für Reaktionen
5.809
Punkte
524
Bei Volume nicht Speicherpool?
 

maxblank

Benutzer
Contributor
Sehr erfahren
Mitglied seit
25. Nov 2022
Beiträge
4.114
Punkte für Reaktionen
2.155
Punkte
289
Das ist natürlich übel. NAS hast du mal neu gestartet?

Geben die Logs einen Aufschluß darüber, was zu dem o.a. Zeitraum passiert ist?

Edit: Noch eine andere Idee. Wenn du die beiden Hotspare-Platten deaktiviert und damit ein neues Volume erstellst, reicht der Platz zum Umkopieren dann aus? Beantworte es selbst: Es sind über 26 TB an Daten, also nein.
 
Zuletzt bearbeitet:
  • Like
Reaktionen: ctrlaltdelete

Sanafana

Benutzer
Mitglied seit
21. Sep 2018
Beiträge
17
Punkte für Reaktionen
6
Punkte
3
Bei Volume nicht Speicherpool?
Muss ich gleich noch mal nachschauen, aktuell
Das ist natürlich übel. NAS hast du mal neu gestartet?

Geben die Logs einen Aufschluß darüber, was zu dem o.a. Zeitraum passiert ist?

Edit: Noch eine andere Idee. Wenn du die beiden Hotspare-Platten deaktiviert und damit ein neues Volume erstellst, reicht der Platz zum Umkopieren dann aus? Beantworte es selbst: Es sind über 26 TB an Daten, also nein.
NAS Neu starten wurden uns ja von abgeraten, würde ich jetzt auch erstmal nicht machen. In den Logs ist gar nichts... zumindest nichts was in diese Richtung geht.

Aktuell versuchen wir 4x 10Tb Platten zu organisieren um das Volume zu kopieren... 3 haben wir schon, für die 4te fahr ich wohl gleich nach Wilhelmshaven, bin ich zwar 2 Stunden unterwegs aber schneller als Bestellen ist das auf jeden Fall.
 

maxblank

Benutzer
Contributor
Sehr erfahren
Mitglied seit
25. Nov 2022
Beiträge
4.114
Punkte für Reaktionen
2.155
Punkte
289
Und wenn du die eine Hotspare-Platte nimmst?
Reicht ja bei RAID6 mit Hotspare trotzdem dicke aus.

Wer hat vom neu starten abgeraten?
 

ctrlaltdelete

Benutzer
Contributor
Sehr erfahren
Maintainer
Mitglied seit
30. Dez 2012
Beiträge
13.633
Punkte für Reaktionen
5.809
Punkte
524
Den Tipp mit dem erstmal nicht neustarten kenne ich auch, sondern erstmal sichern.
Ich würde auch einen neuen Speicherpool einrichten, Pakete mit Hyperbackup aufs neue Volume sichern und die freigegebenen Ordner über Eigenschaften aufs neue Volume verschieben.
Dann das schreibeschütze Volume löschen und neu erstellen, Pakete rücksichern und die Ordner wieder über Eigenschaften verschieben.
 
  • Like
Reaktionen: maxblank

maxblank

Benutzer
Contributor
Sehr erfahren
Mitglied seit
25. Nov 2022
Beiträge
4.114
Punkte für Reaktionen
2.155
Punkte
289
Ok, ich hätte das intuitiv so gemacht, natürlich nach Überprüfung des Vorfalls. Aber wenn das eine Best-Practice-Regel ist, dann ist gut davon zu wissen.
Danke.
 

Sanafana

Benutzer
Mitglied seit
21. Sep 2018
Beiträge
17
Punkte für Reaktionen
6
Punkte
3
Moin moin,
ich habe einen weiteren Kunden mit einem ähnlichen Problem -> Gleichzeitiger Ausfall beider SSDs vom Cache. Da kam mir in den Sinn, dass ich hier ja irgendwann mal einen Beitrag erstellt habe und wollte mich final noch mal zurückmelden.

Wir haben irgendwann nach meiner letzten Nachricht tatsächlich das NAS durchgestartet. Danach ging dann gar nichts mehr, der Speicherpool wurde nicht mal mehr "geladen", wir konnten auf keinerlei Daten mehr zugreifen. Wie das immer so ist in solchen Fällen, gab es zusätzlich dazu auch noch Probleme mit dem Backup und das auch noch an beiden Standorten. Wir hatten also Daten von vor 14 Tagen und konnten auf die aktuellen Daten nicht mehr zugreifen (der "7er" im Lotto, quasi unmöglich). Entsprechend viel Aufwand haben wir investiert, um noch irgendwas zu retten.

Wenn man versucht hat, den Speicherpool zu mounten, ist die ganze Kiste abgestürzt. Wir haben das diverse Male probiert, immer ohne Erfolg. Am Ende musste das NAS nach jedem Mount neu gestartet werden. Nachdem wir also stundenlang recherchiert und probiert haben, kristallisierte sich ein Problem mit dem BTRFS-Dateisystem heraus. Wir haben dann recherchiert und auch einiges an Input dazu gefunden:

https://www.reddit.com/r/btrfs/comments/jnu26l/corrupted_synology_btrfs_storage/

https://www.reddit.com/r/btrfs/comments/kntg3e/synologys_volume_recovery_failed/

https://www.linuxquestions.org/ques...%93couldn%27t-open-file-system%94-4175529628/

https://xpenology.com/forum/topic/24911-last-chance-repair-a-crashed-btrfs-volume/

https://manpages.ubuntu.com/manpages/bionic/man8/btrfs-rescue.8.html

https://kb.synology.com/en-my/DSM/tutorial/What_to_do_when_volume_is_read_only

Während sich eine Person nun also mit dem Thema Backups beschäftigt hat, hat eine andere Person sich per IRC (gibt es tatsächlich noch) mit den Spezialisten aus dem BTRFS-Bereich unterhalten. Im IRC war geballte Fachkompetenz vorhanden, von BTRFS-Entwicklern über eingefleischte Linux-Entwickler, da war von allem was dabei und alle waren sehr hilfsbereit. Wenn ich das noch richtig zusammenbekomme war das Problem, dass unser BTRFS-Device-Tree nicht mehr lesbar bzw. nicht mehr vorhanden war. Wir haben in Absprache mit den Leuten aus dem IRC diverse Versuche unternommen, das wieder hinzubekommen, allerdings nutzt Synology eine eigene Implementierung von BTRFS, was im IRC schon zu Beginn mit sowas wie "Ah, you are using synology with btrfs, so then say goodbye to your data" abgetan wurde. Am Ende sollten die User da aber Recht behalten, wir haben einige Stunden mit deren Hilfe versucht das zu fixen, ohne Erfolg. Uns wurde außerdem geraten, das Problem der linux-btrfs Mailing-Liste zu schreiben, um sowohl Hilfe als auch Feedback zu bekommen, was wir aber letzten Endes nicht getan haben.

Bildschirmfoto 2024-05-29 um 10.24.35.png

Irgendwann um 4Uhr morgens waren wir dann an dem Punkt das wir gesagt haben, es ist nichts mehr zu machen, die vorhandenen Daten schreiben wir ab. Nun ging es also darum, das Backup von vor 14 Tagen wiederherzustellen. Da grundsätzlich schon mal die Überlegung anstand, bei dem Kunden ein High-Availability-Cluster einzurichten, haben wir an der Stelle dann ein neues RS3618xs+ bestellt, welches wir dann mit den Backups bestücken wollten. Anschließend sollte das alte RS3816xs+ formatiert und dann ein HA-Cluster eingerichtet werden. Das neue NAS kam also und wurde mit Platten bestückt. Dann haben wir das OffSite-Backup-1 ins Büro geholt, die beiden miteinander verbunden und dann 3 Tage alles was da war rückgesichert. Zuerst die kritischen Sachen (Terminalserver, Rechnungswesen etc.) und dann den Rest (sonstige VMs usw.)

Insgesamt war das schon eine interessante Erfahrung, die ich aber kein zweites mal haben möchte. Was sich aus einem einfachen "Ich kann mich mit dem Terminalserver nicht verbinden"-Ticket wird, habe ich so auch noch nicht erlebt. Die fehlenden 14 Tage bezogen sich zum Glück nur auf unkritische Dinge, die hochkritischen Sachen hatten wir alle < 24Std.
Ich/Wir sind grundsätzlich davon weg, SSD-Cache bei irgendwelchen Kunden zu verwenden - zumindest nicht mehr im Bereich wirklich kritischer Daten. Wie wir so rausgelesen haben, scheint es da ein grundsätzliches Thema mit DSM 7 zu geben, da sind wir aber nicht mehr tiefer eingestiegen und mit dem Synology-Support habe ich das auch alles nicht besprochen.

Ich habe also im Nachgang bei einigen Kunden den SSD-Cache deaktiviert und siehe da, heute morgen bekomme ich eine E-Mail, beide SSDs ausgefallen, erwartete Lebensdauer 1%... Prost Mahlzeit, aber zum Glück nicht weiter tragisch. Die Platten werden ausgebaut und das wars dann auch.

Wie dem auch sei... ich wollte das einfach noch mal ein bisschen zusammenfassen. Am Ende ist niemandem geholfen, wenn Beiträge in einem Forum im Internet immer dann aufhören, wenn jemand sein Problem gelöst hat. So kann vielleicht irgendwann irgendwer noch mal auf das Thema hier stoßen und sich einiges an Zeit und Kopfschmerzen sparen.
 
Zuletzt bearbeitet:


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat