Zentris
Benutzer
- Mitglied seit
- 20. Mai 2012
- Beiträge
- 181
- Punkte für Reaktionen
- 0
- Punkte
- 22
(Mein) SSD-Cache Desaster: (ist ein bischen länglich, aber ich habe mal die Umstände mit aufgeführt, damit das nachvollziehbar ist.)
Ausgangslage:
Raid 5 Volume mit 3x4TB (macht knapp 7,8TB)
1 SSD mit 128GB für dieses Volume als SSD Cache mit Syno-Mitteln.
Normalzustand:
angeschlossen:
2 Windows-PCs nutzen CIFS,
5-6 Linux-Maschinen (Laptop, RaspberryPi's, Intel-Skull als ESXi Host) als NFS/iSCSI-Clients
2-3 (Normal)User nutzen Kalender, Adressbuch, kleines Wiki, Downloadstation, Audio/VideoStation usw...
2 User SW-Entwickler mit virtuellen Maschinen(Abbildern), Docker mit GitLab, MariaDB usw.
Die DS ist per 2x1GB-Link mit einem Switch angeschlossen
Die Performancesteigerung durch den Cache war zunächst kaum spürbar, lediglich die Plattenlast ging etwas zurück, die Auslastung des Caches lag so im Mittel zw. 5-60GB...
Desaster:
Dann mussten (durch mich) mehrere VMs verschoben werden (aus dem SCSI-Volume auf den Raid5-Verbund, ca. 200GB...)
Die Kopiergeschwindigkeit lag Anfangs bei ca. 70-90MB/sec. und brach dann nach ca. 80GB plötzlich auf <2MB/sec ein.
Kopieren abgebrochen.
Nochmal gestartet: Sofort nur noch 2-3MB, alle Zugriffe auf die Freigaben waren zäh... Video lief nicht mehr ruckelfrei...
CPU dümpelte mit ca. 2-5% vor sich hin...
Die SSD hatte 100% Disk-Auslastung (Füllstand), wobei die IO-Load bei (nur noch) ca. 100 IOPs lag.. ständige Schreib/Leseoperationen... mit ca. 2-5MB/sec
Hatte das Ganze dann abgebrochen..
Am nächsten Tag nochmal (nach ca. 20h).. wieder wie ober geschildert: die ersten ca. 100GB liefen zügig, bis die SSD voll war, dann Einbruch...
Meine Schlussfolgerung:
Die SW von Syno. schreibt die SSD voll und versucht dann, die ältesten Blöcke wieder zu löschen um gleich wieder draufzuschreiben und gleich wieder was zu löschen.
Die SSD (Crucical) ist dabei offenbar so warm geworden, dass der SSD Controller auf die Bremse getreten ist und das war es dann.
Nach dam Ausphasen der SSD aus dem Cache konnte ich dann durchweg mit ca. 100MB/sec die VMs umkopieren...
M.M. nach muss das intelligenter gelöst werden: Wenn der SSD-Cache voll ist und die IOPs unter dem Wert der Festplatten (ca. 200-300 IOP) sinkt, dann muss es einen Bypass am Cache vorbei geben, am besten gleich noch mit Temperaturüberwachung.
Meine SSD ist zugegebenermassen ein etwas älteres Modell, aber läuft noch ohne Probleme (derzeit als iSCSI-Device am ESXi-Host)..
Ich habe seit dem den SSD-Cache wieder rausgenommen... geht auch so..
Ausgangslage:
Raid 5 Volume mit 3x4TB (macht knapp 7,8TB)
1 SSD mit 128GB für dieses Volume als SSD Cache mit Syno-Mitteln.
Normalzustand:
angeschlossen:
2 Windows-PCs nutzen CIFS,
5-6 Linux-Maschinen (Laptop, RaspberryPi's, Intel-Skull als ESXi Host) als NFS/iSCSI-Clients
2-3 (Normal)User nutzen Kalender, Adressbuch, kleines Wiki, Downloadstation, Audio/VideoStation usw...
2 User SW-Entwickler mit virtuellen Maschinen(Abbildern), Docker mit GitLab, MariaDB usw.
Die DS ist per 2x1GB-Link mit einem Switch angeschlossen
Die Performancesteigerung durch den Cache war zunächst kaum spürbar, lediglich die Plattenlast ging etwas zurück, die Auslastung des Caches lag so im Mittel zw. 5-60GB...
Desaster:
Dann mussten (durch mich) mehrere VMs verschoben werden (aus dem SCSI-Volume auf den Raid5-Verbund, ca. 200GB...)
Die Kopiergeschwindigkeit lag Anfangs bei ca. 70-90MB/sec. und brach dann nach ca. 80GB plötzlich auf <2MB/sec ein.
Kopieren abgebrochen.
Nochmal gestartet: Sofort nur noch 2-3MB, alle Zugriffe auf die Freigaben waren zäh... Video lief nicht mehr ruckelfrei...
CPU dümpelte mit ca. 2-5% vor sich hin...
Die SSD hatte 100% Disk-Auslastung (Füllstand), wobei die IO-Load bei (nur noch) ca. 100 IOPs lag.. ständige Schreib/Leseoperationen... mit ca. 2-5MB/sec
Hatte das Ganze dann abgebrochen..
Am nächsten Tag nochmal (nach ca. 20h).. wieder wie ober geschildert: die ersten ca. 100GB liefen zügig, bis die SSD voll war, dann Einbruch...
Meine Schlussfolgerung:
Die SW von Syno. schreibt die SSD voll und versucht dann, die ältesten Blöcke wieder zu löschen um gleich wieder draufzuschreiben und gleich wieder was zu löschen.
Die SSD (Crucical) ist dabei offenbar so warm geworden, dass der SSD Controller auf die Bremse getreten ist und das war es dann.
Nach dam Ausphasen der SSD aus dem Cache konnte ich dann durchweg mit ca. 100MB/sec die VMs umkopieren...
M.M. nach muss das intelligenter gelöst werden: Wenn der SSD-Cache voll ist und die IOPs unter dem Wert der Festplatten (ca. 200-300 IOP) sinkt, dann muss es einen Bypass am Cache vorbei geben, am besten gleich noch mit Temperaturüberwachung.
Meine SSD ist zugegebenermassen ein etwas älteres Modell, aber läuft noch ohne Probleme (derzeit als iSCSI-Device am ESXi-Host)..
Ich habe seit dem den SSD-Cache wieder rausgenommen... geht auch so..