Ich hab jetzt endlich mal beschlossen, das Thema Monitoring näher anzuschauen. Vorher war das immer so ein Thema, welches ich gerne gemieden habe.
Jetzt habe ich ein uraltes Tablet wieder in Betrieb genommen und mir über den PC an die Wand gehangen. Dieses Tablet ist eigentlich zu nix mehr zu gebrauchen. Taugt aber noch, um einfach im immersivem Modus die Grafana Web UI anzuzeigen. Jetzt habe ich mir da ein Dashboard selbst gebaut. Wenn man sich mal nen Tag mit Grafana und dem Syntax bezügl. Prometheus und InfluxDB beschäftigt hat, kann man sich da ziemlich geile Sachen basteln. Aktuell sieht es so aus (alles etwas gepresst, damit es auf den Bildschirm des uralt-Tabs passt);
Was man hier sieht, ist ein Screenshot vom Tablet. Darauf sieht man die Disk- / CPU- / RAM- Auslastung der VMs + Proxmox-Hosts und der DS. Es fehlt nur noch die Disk Auslastung der Proxmox-Hosts. Das ist irgendwie etwas kompliziert. Ich habe alles mit Prometheus gebaut. Die Proxmox-Hosts senden aber aktuell nur an die InfluxDB. Irgendwie komme ich da mit den Querys noch nicht so gut zurecht, wie mit den Querys von Prometheus.
Auf jedem Gerät / jeder VM (außer Proxmox) läuft ein Node-Exporter. Der sammelt Daten und der Prometheus Docker-Container holt sich die Daten ab. Hierzu sieht man unten rechts, dass 10 / 10 Quellen "up & running" sind, von denen Prometheus Daten sammelt. Auf der DS laufen sogar 3 Container, um genug Daten zu haben. Denn da läuft der Node-Exporter oft ins Leere und somit läuft noch "Cadvisor" und ein SNMP-Exporter. Für die Einrichtung in Zusammenhang mit der DS habe ich mich weitesgehend
an der Anleitung von marius entlanggehangelt. Der bietet auch ein "Synology Dashboard" zum Download an, dass ich allerdings stark bearbeiten musste, da ich andere Job-Namen als er verwende. Das sieht so aus:
Das geht noch viel weiter, würde jetzt gar nicht auf einen Screenshot passen. Aber das Relevanteste steht ganz oben. Auf dem Dashboard von marius ist bereits eine Status-Box eingebaut, die die Prometheus-Tasks abfragt:
Daraus habe ich mir dann meinen "Service-Zähler" oben gebaut / abgeleitet.
Zusätzlich zu grafana habe ich ja noch mein
Scrutiny-Dashboard, welches die SMART-Werte überwacht / anzeigt. Vielleicht baue ich das noch irgendwie in grafana mit ein. Das wird aber ein komplexes Ding.
Nächster Schritt sind dann Push-Notifications via Gotify / ntfy.
Wegen der ganzen Dashboards und neuen Containern musste ich die CPU-Beschränkung der Monitoring-VM aufheben (war auf 2 Kernen bei 75%) und den RAM von 4 auf 6GB erhöhen.
Natürlich ist auch bereits ein Dashboard im Bau, welches mehr für meinen Desktop Monitor geeignet ist. Das ist aber noch ein ziemliches Schlachtfeld. Daher folgen Screenshots später...