DSM 7.2 DS218play regelmäßig für 15 bis 30 Min. ohne Reaktion

DigiAndi · 20. Mai 2024

Hallo,

ich betreibe seit rund einem Jahr ein DS218play mit einer Nextcloud darauf. Also WebStation, PHP 8.2, MariaDB. DSM und auch alle anderen Komponenten sind aktuell. Im Gehäuse ist eine SSD auf der das "System", d. h. die Weboberfläche der Nextcloud läuft und eine Festplatte, auf der die Daten liegen.

Das funktioniert alles wunderbar und super zuverlässig - bis auf eine Sache, die mir Rätsel aufgibt. Schätzungsweise einmal täglich ist das NAS für ca. 15 bis 30 Min. nicht erreichbar. Die Nextcloud ist nicht erreichbar und auch die DSM-Weboberfläche nicht. Samba und FTP sind ebenfalls tot, nur auf Pings antwortet die DS218play. Während dieses Zustands sind beide Laufwerke schwer beschäftigt und blinken intensiv. Nach der Zeit ist ohne irgendein Zutun wieder alles normal, als wäre nichts gewesen. Es sieht für mich so aus, als ob das NAS in dieser Zeit mit etwas so sehr ausgelastet wird, dass es auf nichts mehr anderes reagiert.

Das Problem: In keinem Log taucht etwas in oder um diesem Zeitraum auf. Nicht in den Logs im DSM, nicht in den Logs der Nextcloud. Ich habe keine Idee, was da passiert und was ich dagegen tun könnte - und ob es mit der Nextcloud zu tun hat oder nicht. Es gibt auch keinerlei regelmäßige Jobs, von denen ich wüsste. Es passiert auch nicht jeden Tag zur selben Uhrzeit. Da ich während des Problems ja nicht per DSM zugreifen kann, kann ich auch währenddessen leider nicht im Ressourcen-Monitor schauen, was evtl. mitspielen könnte...

Kennt jemand so ein Phänomen und hat eine Idee, wo ich ansetzen könnte?

Anzeige · 20. Mai 2024

Hallo DigiAndi,

Bücher und Hardware zum Thema gibt es bei Amazon: DS218play regelmäßig für 15 bis 30 Min. ohne Reaktion

ctrlaltdelete · 20. Mai 2024

Willkommen im Forum!
Hast du Active Insight oder Antivirus Pakete auf der DS installiert, wenn ja dann beides deinstallieren.

DigiAndi · 20. Mai 2024

Ist beides installiert. Werfe ich runter und beobachte ich weiter.
Danke!

maxblank · 21. Mai 2024

Auch im Hinterkopf behalten, dass es nicht das stärkste NAS ist und auch der RAM arg beschränkt ist.

DigiAndi · 21. Mai 2024

Scheint leider nichts gebracht zu haben, im Moment ist es wieder in dem Zustand - und das, wie mir scheint sehr lange. Hat noch jemand eine Idee? Dass CPU und RAM das Problem sind, kann ich mir nicht vorstellen, da es an 23 Stunden am Tag ja schnell und zuverlässig läuft und auch im Ressourcenmonitor keinerlei hohe Auslastung zu sehen ist.

ctrlaltdelete · 21. Mai 2024

Und das es am LAN liegt, mal im Protokoll des Routers schauen?

DigiAndi · 21. Mai 2024

Nachtrag:

Ich hatte gestern mal das Aufzeichnen der Daten im Ressourcen-Monitor aktiviert und sehe jetzt in dem Zeitraum folgendes:

Bis 16:30 Uhr alles normal, dann ging es wohl los und "I/O Warten" ging auf 100%. Dann gibt es quasi keine Daten bis I/O Warten wieder hoch ging und seit ca. 18:15 Uhr ist wieder alles normal.

Arbeitsspeicher:

Es gibt in dem Zeitraum einfach keine Daten, als ob das NAS ausgeschaltet wäre. Auch bei den Laufwerksdaten gibt es keine Werte in dem Zeitraum.

DigiAndi · 21. Mai 2024

ctrlaltdelete schrieb:
Und das es am LAN liegt, mal im Protokoll des Routers schauen?

Das kann ich mir nicht vorstellen. Das Synology hängt an einem dummen Netgear 8-Port (unmanaged) und der Router im Netzwerk ist eine FritzBox 7530. Die IP ist fix eingestellt (statisch). Was sollte da passieren? Alles andere im Netz läuft ja 24/7 zu 100% einwandfrei.

ctrlaltdelete · 21. Mai 2024

Schau mal ob du per SSH über die Konsole mit dem Befehl: htop was findest?

maxblank · 21. Mai 2024

Ist der Zeitraum, wenn das auftritt, immer zur gleichen Uhrzeit?

DigiAndi · 21. Mai 2024

Nein, das varriiert. Möglicherweise beginnt es immer 24 Stunden nachdem es am Vortag zu Ende war. So scheint es mir. Nachdem jetzt der Log im Ressourcen-Monitor läuft, bin ich morgen um die Zeit evtl. noch etwas schlauer.

ctrlaltdelete schrieb:
Schau mal ob du per SSH über die Konsole mit dem Befehl: htop was findest?

Da ist halt leider das Problem, dass ich in dem Zeitraum auch per SSH nicht draufkomme. Aber ich werde es mal mitlaufen lassen, in der Hoffnung, es offen zu haben, wenn es dann passiert.

Benie · 21. Mai 2024

DigiAndi schrieb:
Dass CPU und RAM das Problem sind, kann ich mir nicht vorstellen,

Trotz allem, RAM Test schon gemacht ?

sky63 · 21. Mai 2024

I/O Waitstates bedeutet ja in der Regel das auf die Platten gewartet wird. Wenn (h)top auch "stehen bleibt" wenn das passiert muss man vielleicht erstmal synogear installieren damit man so Sachen wie vmstat, iostat oder sar zur Verfügung hat.

gruss,
sky

Benares · 21. Mai 2024

Wenn IO-Wait-Werte durch die Decke schießen, ist was anderes Faul. Wurden schon die SMART-Werte der Platten gecheckt?

DS-Michael · 24. Mai 2024

TRIM für die SSD aktiviert? Wenn das ausgeführt wird, müssen die LEDs blinken.

DigiAndi · 24. Mai 2024

Benares schrieb:
Wenn IO-Wait-Werte durch die Decke schießen, ist was anderes Faul. Wurden schon die SMART-Werte der Platten gecheckt?

Keine Auffäligkeiten, alles im grünen Bereich.

DS-Michael schrieb:
TRIM für die SSD aktiviert? Wenn das ausgeführt wird, müssen die LEDs blinken.

Nein, ist nicht aktiviert.

Gestern ist das Problem nicht aufgetreten. Heißt aber nichts, da es auch bisher schon Tage ohne gab. Ich beobachte weiter. Danke euch auf jeden Fall bis hierhin!

ctrlaltdelete · 24. Mai 2024

DigiAndi schrieb:
eine Auffäligkeiten, alles im grünen Bereich.

Poste bitte mal die SMART Werte!!!

DigiAndi · 24. Mai 2024

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Red (SMR)
Device Model: WDC WD40EFAX-68JH4N1
Serial Number: WD-WXB2D718V807
LU WWN Device Id: 5 0014ee 2146b52ea
Firmware Version: 83.00A83
User Capacity: 4,000,787,030,016 bytes [4.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5400 rpm
Form Factor: 3.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-3 T13/2161-D revision 5
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Fri May 24 11:20:51 2024 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 215 209 021 Pre-fail Always - 2208
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 385
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 080 080 000 Old_age Always - 15255
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 191
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 6
193 Load_Cycle_Count 0x0032 193 193 000 Old_age Always - 21613
194 Temperature_Celsius 0x0022 120 115 000 Old_age Always - 27
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0

=== START OF INFORMATION SECTION ===
Device Model: INTENSO
Serial Number: AA000000000000006097
Firmware Version: U0312A0
User Capacity: 120,034,123,776 bytes [120 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Form Factor: 2.5 inches
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ACS-2 T13/2015-D revision 3
SATA Version is: SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Fri May 24 11:22:10 2024 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x0032 100 100 050 Old_age Always - 0
5 Reallocated_Sector_Ct 0x0032 100 100 050 Old_age Always - 1
9 Power_On_Hours 0x0032 100 100 050 Old_age Always - 15321
12 Power_Cycle_Count 0x0032 100 100 050 Old_age Always - 259
160 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 0
161 Unknown_Attribute 0x0033 100 100 050 Pre-fail Always - 97
163 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 3
164 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 169577
165 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 1059
166 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 192
167 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 269
168 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 5050
169 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 95
175 Program_Fail_Count_Chip 0x0032 100 100 050 Old_age Always - 0
176 Erase_Fail_Count_Chip 0x0032 100 100 050 Old_age Always - 0
177 Wear_Leveling_Count 0x0032 100 100 050 Old_age Always - 0
178 Used_Rsvd_Blk_Cnt_Chip 0x0032 100 100 050 Old_age Always - 1
181 Program_Fail_Cnt_Total 0x0032 100 100 050 Old_age Always - 0
182 Erase_Fail_Count_Total 0x0032 100 100 050 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 050 Old_age Always - 14
194 Temperature_Celsius 0x0022 100 100 050 Old_age Always - 40
195 Hardware_ECC_Recovered 0x0032 100 100 050 Old_age Always - 0
196 Reallocated_Event_Count 0x0032 100 100 050 Old_age Always - 0
197 Current_Pending_Sector 0x0032 100 100 050 Old_age Always - 1
198 Offline_Uncorrectable 0x0032 100 100 050 Old_age Always - 0
199 UDMA_CRC_Error_Count 0x0032 100 100 050 Old_age Always - 0
232 Available_Reservd_Space 0x0032 100 100 050 Old_age Always - 97
241 Total_LBAs_Written 0x0030 100 100 050 Old_age Offline - 181447
242 Total_LBAs_Read 0x0030 100 100 050 Old_age Offline - 78195
245 Unknown_Attribute 0x0032 100 100 050 Old_age Always - 458871

dil88 · 24. Mai 2024

Auf dem zweiten Laufwerk hängt ein Sektor (ID 5, 178 und 197). Wäre vielleicht einen Versuch wert, dieses 'mal zu ziehen und ein paar Tage zu schauen. Vorher Backup machen und die Dinge auf die HDD verschieben, die benötigt werden. Wenn das System dann stabil läuft, SSD ersetzen.

ctrlaltdelete · 24. Mai 2024

Ich würde die SSD tauschen, pending sector ist normalerweise das Todeurteil.

DSM 7.2 DS218play regelmäßig für 15 bis 30 Min. ohne Reaktion

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Additional post fields

Kaffeautomat