RS4017xs+ Performance Probleme

Status
Für weitere Antworten geschlossen.

kurschies

Benutzer
Mitglied seit
16. Jan 2019
Beiträge
2
Punkte für Reaktionen
0
Punkte
0
Hallo!

wir haben seit kurzem zwei RS4017xs+ boxen (HA) als Backup Lösung im einsatz. Die Boxen sind mit 12 x 10 TB platten (Western Digital Gold Datacenter @ 7200 rpm) im RAID 6 bestückt und haben ein RAM upgrade auf 24 GB bekommen. Es gibt nur ein Volume, das mit btrfs formatiert wurde, compression ist eingeschaltet. Die Boxen dienen ausschließlich als Backup target für diverse Linux Server, die das Volume per NFS angebunden haben (d.h. relativ wenige, dafür große Dateien im Bereich von 100 MB bis 50 GB).

während meiner Tests, die ich tagsüber gemacht habe, war alles super - ich habe die 10 GBit interfaces ausreizen können und habe innerhalb kürzester Zeit große Datenmengen sichern können. Auch die Kompression ist besser als erwartet, bisher habe ich keinen Performance impact feststellen können und konnte den benötigten Plattenplatz auf 1/4 reduzieren (sonst hätten wir schon weitere Festplatten kaufen müssen)

ABER:
ich habe heute Nacht einen Anruf bekommen, weil unsere Backups so wahnsinnig langsam sind... ca. 15 Server haben gleichzeitig versucht ihr backup auf dem Server abzulegen, zusammen haben die Server aber nur durchschnittlich 10 MB/sekunde schreiben könnnen, was viel zu langsam ist. Als ich mich per SSH auf dem Server angemeldet habe, hat das system sehr träge reagiert, htop hat eine load von 100-120 gemeldet und im Web-UI wurde die "Utilisation" des volumes mit 100% angegeben.
kann mir jemand einen Tipp geben, woher das ganze I/O kommt? Außer dem HA Manager sind keine apps / pakete installiert, Außer NFS sind alle Protokolle zum Datentransfer abgeschaltet... und an der Last von den Servern liegt es nicht, Tagsüber kann ich das Backup (auch auf allen 15 Servern gleichzeitig) ohne Probleme starten und alles läuft mit der erwarteten Geschwindigkeit, die Load ist auch irgendwo bei 5-15 ...

so far
Benjamin
 

dil88

Benutzer
Contributor
Sehr erfahren
Mitglied seit
03. Sep 2012
Beiträge
30.701
Punkte für Reaktionen
2.112
Punkte
829
Willkommen im Forum!

Per htop solltest Du das eigentlich eingrenzen können. Dort kannst Du Dir die I/O-Last pro Prozess ausgeben lassen.
 

tesme33

Benutzer
Mitglied seit
01. Apr 2010
Beiträge
114
Punkte für Reaktionen
1
Punkte
18
Hi
wenn es tagsüber geht und Nachts nicht ist wohl noch was am laufen auf der Syno.

Virenscanner ? Raid Check ?

Schon mal geschaut ob was eingerichtet wurde. Kann ja sein das ein netter Kollege helfen wollte.

Gruss
 

kurschies

Benutzer
Mitglied seit
16. Jan 2019
Beiträge
2
Punkte für Reaktionen
0
Punkte
0
also dass da ein anderer Kollege dran etwas gemacht hat halte ich für ausgeschlossen - zumindest ohne mir bescheid zu sagen... aber ich gucke gleich noch mal nach.

bezüglich der Prozesse, der den meisten I/O machen: sorry, hatte ich in meinem ersten Post gar nicht erwähnt... es sind hauptsächlich kworker prozesse, aber auch btrfs-transacti taucht immer wieder auf sowie viele irq/67-mv14xx-0 (es sind ungefähr 10 Prozesse, von irq/67 bis irq 82)... und irgendwann danach kommen dann die nfsd prozesse.

was mich nur stutzig macht, ist dass lediglich die kworker prozesse etwas i/o machen, die anderen prozesse kommen nicht über 1 MB/s hinaus - alles in Summe aber deutlich weniger als unser Backup es normalerweise tun würde (wobei die Anzeige nicht angibt, ob es random I/O ist, dann könnte ich mir vorstellen, dass es zu viel wird)...

gruß
Benjamin
 

tesme33

Benutzer
Mitglied seit
01. Apr 2010
Beiträge
114
Punkte für Reaktionen
1
Punkte
18
Hi
ich denke Dein Problem sind eher die IOs die von den Prozessen generiert werden und damit die Platten "belegen".
Die irq Prozesse habe ich nicht, kann aber an der Kiste liegen. Da das Backup Nachts probeleme macht, wäre es ineteressant zu Wissen ob dann (Nachts) andere Prozesse vorhanden sind. Oder ist das schon die Liste aus der Nacht ?

Bei dem BTRFS Volume kann man auch den Wert "Dateizugriffsfrequenz aufzeichnen:" auf nie stellen. Wenn es dann besser wird würde ich vermuten Dein Backup besteht aus lauter kleinen Dateien.

Und kannst Du das Zeitfenster eingrenzen wann das Backup Probleme macht . So von 12:00-03:00 oder so
.
Schon mal die crontab gecheckt ?

bei mir sieht die so aus:
root@nas01:/var/spool# more /etc/crontab
MAILTO=""
PATH=/sbin:/bin:/usr/sbin:/usr/bin:/usr/syno/sbin:/usr/syno/bin:/usr/local/sbin:/usr/local/bin
#minute hour mday month wday who command
0 0 1 * * root /usr/syno/bin/syno_disk_health_record
0 20 * * 5 root /var/packages/AntiVirus/target/bin/synoavscan --all
0 23 * * 0,1,2,3,4 root /usr/syno/sbin/synopoweroff
0 0-23/1 * * * root synoraidtool --method=sche-scrubbing --run
0 10 * * 3 root /usr/syno/bin/synoschedtask --run id=1
0 12 15 3,9 * root /usr/syno/bin/synoschedtask --run id=2
0 22 * * * root /usr/syno/bin/synoschedtask --run id=4
59 1 * * 6 root /usr/syno/bin/synoschedtask --run id=5
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=6
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=7
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=10
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=12
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=14
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=15
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=16
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=17
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=18
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=19
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=20
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=22
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=23
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=24
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=26
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=28
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=29
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=30
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=31
0 0 * * 0,1,2,3,4,5,6 root /usr/syno/bin/synoschedtask --run id=32
0 0 * * 6 root /usr/syno/bin/synoschedtask --run id=33
0 0 * * * root /usr/syno/bin/synoschedtask --run id=38
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=39
0 10 30 * * root /usr/syno/bin/synoschedtask --run id=8
33 8 * * 3 root /usr/syno/bin/synoschedtask --run id=41
0 0 29 * * root /usr/syno/bin/synoschedtask --run id=34
0 0 * * * root /usr/syno/bin/synoschedtask --run id=13
0 0 * * * root /usr/syno/bin/synoschedtask --run id=36
0 0 * * * root /usr/syno/bin/synoschedtask --run id=37
0 0 * * * root /usr/syno/bin/synoschedtask --run id=40
0 11,12,13,14,15,16,17,18,19,20,21,22,23 * * 3 root /usr/syno/bin/synoschedtask --run id=9
 

KGundermann

Benutzer
Mitglied seit
30. Jun 2019
Beiträge
21
Punkte für Reaktionen
0
Punkte
1
Frage an den Poster:

Wurde die Ursache gefunden und wie hat sich das Problem gelöst ??
 
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat