Diskgruppe vs. Volume

Zentris · 04. Mrz 2017

(Mein) SSD-Cache Desaster: (ist ein bischen länglich, aber ich habe mal die Umstände mit aufgeführt, damit das nachvollziehbar ist.)

Ausgangslage:
Raid 5 Volume mit 3x4TB (macht knapp 7,8TB)
1 SSD mit 128GB für dieses Volume als SSD Cache mit Syno-Mitteln.

Normalzustand:
angeschlossen:
2 Windows-PCs nutzen CIFS,
5-6 Linux-Maschinen (Laptop, RaspberryPi's, Intel-Skull als ESXi Host) als NFS/iSCSI-Clients

2-3 (Normal)User nutzen Kalender, Adressbuch, kleines Wiki, Downloadstation, Audio/VideoStation usw...
2 User SW-Entwickler mit virtuellen Maschinen(Abbildern), Docker mit GitLab, MariaDB usw.

Die DS ist per 2x1GB-Link mit einem Switch angeschlossen

Die Performancesteigerung durch den Cache war zunächst kaum spürbar, lediglich die Plattenlast ging etwas zurück, die Auslastung des Caches lag so im Mittel zw. 5-60GB...

Desaster:
Dann mussten (durch mich) mehrere VMs verschoben werden (aus dem SCSI-Volume auf den Raid5-Verbund, ca. 200GB...)

Die Kopiergeschwindigkeit lag Anfangs bei ca. 70-90MB/sec. und brach dann nach ca. 80GB plötzlich auf <2MB/sec ein.
Kopieren abgebrochen.
Nochmal gestartet: Sofort nur noch 2-3MB, alle Zugriffe auf die Freigaben waren zäh... Video lief nicht mehr ruckelfrei...

CPU dümpelte mit ca. 2-5% vor sich hin...
Die SSD hatte 100% Disk-Auslastung (Füllstand), wobei die IO-Load bei (nur noch) ca. 100 IOPs lag.. ständige Schreib/Leseoperationen... mit ca. 2-5MB/sec

Hatte das Ganze dann abgebrochen..

Am nächsten Tag nochmal (nach ca. 20h).. wieder wie ober geschildert: die ersten ca. 100GB liefen zügig, bis die SSD voll war, dann Einbruch...

Meine Schlussfolgerung:
Die SW von Syno. schreibt die SSD voll und versucht dann, die ältesten Blöcke wieder zu löschen um gleich wieder draufzuschreiben und gleich wieder was zu löschen.
Die SSD (Crucical) ist dabei offenbar so warm geworden, dass der SSD Controller auf die Bremse getreten ist und das war es dann.

Nach dam Ausphasen der SSD aus dem Cache konnte ich dann durchweg mit ca. 100MB/sec die VMs umkopieren...

M.M. nach muss das intelligenter gelöst werden: Wenn der SSD-Cache voll ist und die IOPs unter dem Wert der Festplatten (ca. 200-300 IOP) sinkt, dann muss es einen Bypass am Cache vorbei geben, am besten gleich noch mit Temperaturüberwachung.
Meine SSD ist zugegebenermassen ein etwas älteres Modell, aber läuft noch ohne Probleme (derzeit als iSCSI-Device am ESXi-Host)..

Ich habe seit dem den SSD-Cache wieder rausgenommen... geht auch so..

Zefoba · 15. Apr 2017

Ich bin Neuling, und verstehe leider nicht genau, worüber hier genau gesprochen wurde.
Den ich bin besitzt eines DS1515 mit 3 Festplatte a 6 TB (bei einem 5-Bay DS) die zusammen ein Volumen bilden, kann Manie Festplatten irgendwie aufteilen ?
und was passiert, wenn eine Festplatte defekt bekommt, sind die Daten dort verloren ?

Ich habe leider keine weitere Informationen darüber gefunden.

Ich würde mich auf eine klaren und einem Neuling verständliche Antwort, sehr freuen.

Mit freundliche Grüße
Schuberth

Leberkasbepi · 15. Apr 2017

@Zentris Ok, dann ist es Nachvollziehbar.

Bei mir ists eher anders rum. Je voller der Cache wird, desto seltener komme ich unter 125MB/s beim Transfer im Netzwerk.