- Mitglied seit
- 06. Jan 2025
- Beiträge
- 8
- Punkte für Reaktionen
- 2
- Punkte
- 3
Guten Tag,
wir betreiben eine RackStation mit DSM 7.2.2. Das System wird mittels Telegraf und SNMP überwacht. Vor kurzem ist eine Cache-SSD gestorben. Seitdem funktioniert das SNMP Monitoring nicht mehr. Nach Problemsuche haben wir festgestellt das der smartctl Prozess welcher vom SNMP service gestartet wird sich permanent aufhängt da er auf eine Antwort der Festplatte wartet, welche aber natürlich nie kommt. Wenn eine SNMP-Anfrage gestellt wird welche nur ansatzweise mit Festplatten, S.M.A.R.T. Werten oder Speicher zusammenhängt kommt es in irgendeiner Form zu diesem Fehlerzustand, welcher sich nur durch einen manuellen Neustart des systemd-Services beheben lässt.
Da das Monitoring genutzt werden voll um Festplattenausfälle zu erkennen, bzw. auch vorzuwahnen kann es natürlich nicht sein dass das Monitoring eben genau im Fehlerzustand nicht funktional ist. Gibt es jemanden der schon ähnliche Erfahrungen gemacht hat, oder evtl. einen Workaround, wie z.B. einen Timeout für den smartctl Prozess?
MfG
wir betreiben eine RackStation mit DSM 7.2.2. Das System wird mittels Telegraf und SNMP überwacht. Vor kurzem ist eine Cache-SSD gestorben. Seitdem funktioniert das SNMP Monitoring nicht mehr. Nach Problemsuche haben wir festgestellt das der smartctl Prozess welcher vom SNMP service gestartet wird sich permanent aufhängt da er auf eine Antwort der Festplatte wartet, welche aber natürlich nie kommt. Wenn eine SNMP-Anfrage gestellt wird welche nur ansatzweise mit Festplatten, S.M.A.R.T. Werten oder Speicher zusammenhängt kommt es in irgendeiner Form zu diesem Fehlerzustand, welcher sich nur durch einen manuellen Neustart des systemd-Services beheben lässt.
Da das Monitoring genutzt werden voll um Festplattenausfälle zu erkennen, bzw. auch vorzuwahnen kann es natürlich nicht sein dass das Monitoring eben genau im Fehlerzustand nicht funktional ist. Gibt es jemanden der schon ähnliche Erfahrungen gemacht hat, oder evtl. einen Workaround, wie z.B. einen Timeout für den smartctl Prozess?
MfG
Zuletzt bearbeitet von einem Moderator: