Hallo,
ich hoffe ich platziere jetzt meine Fage im richtigen Unterforum.
Wir haben einen HA Cluster mit unseren beiden RS4017xs+ Knoten erstellt. Es gibt 3 Bonds pro Cluster.
Zusatzinfo:
Es gibt 2 Speicherpools
Raid 10 SSDs
Raid 5 HDDs
Konfig Node A + Node B identisch
Bond 1 (Active Standby Modus)
Managemet (Cluster)
LAN1 und Lan2 (jeweils 1 GBit)
Bond 2 (Balance XOR)
Heartbeat Direkt Verbindung ohne Switch
LAN 5 + LAN 6 (jeweils 10 Gbit / durch Bond 20 Gbit)
Bond 3 (LACP 802.3ad Dynamic Link)
LAN 7 +LAN 8 + LAN 9 + LAN 10 (jeweils 10 Gbit / durch Bond 20 Gbit)
Wir haben 2 Brocade 6650 (10Gbit Switch SFP+) die im Multichassis Trunk laufen Active-Active. Auf diesen beiden Switchen wurden jeweils 2 dynamische Lags konfiguriert. Pro Lag - 2 Ports.
Auf Switch 1 - LAG 1 kommen von Node A - Bond 3 - LAN 7 + LAN 8
Auf Switch 2 - LAG 1 kommen von Node A - Bond 3 - LAN 9 + LAN 10
Auf Switch 1 - LAG 2 kommen von Node B - Bond 3 - LAN 7 + LAN 8
Auf Switch 2 - LAG 2 kommen von Node B - Bond 3 - LAN 9 + LAN 10
Beide Speicherpools wurden mit NFS 4.1 auf ESX Servern gemountet.
Wir haben 2 VMs auf den Store migriert. Beide geöffnet in der VMWare Konsole.
Auf beiden läuft ein IO-Meter Test, der auf die Speicherpool Platten schreibt.
HDD + SSD
Wir haben dann diverse Failover Test durchgeführt:
Switch 1
LAG 1 (NodeA) - abgesteckt
IO Meter läuft weiter
LAG 1 (NodeA) auf Switch 2 vorhanden
Kein Failover da Node A auf Switch 2 vorhanden
LAG 1 (NodeA) - auf Switch 1 abgesteckt
LAG 1 (NodeA) auf Switch 2 auch abgesteckt
Failover wird eingeleitet, da nur noch LAG 2 - Node B auf Switch 1 und 2 vorhanden.
Somit wird Node B, der passive ist, zum aktiven Node.
Jetzt zu dem Problem
Die Dauer der Failovers dauerte fast 3 Minuten.
Erst dann fingen die IO Meter tests wieder an zu schreiben auf den VMs.
Für ein Simples System ist das zu verkraften, aber für ein ERP System oder Exchange ist das nicht sehr optimal.
Wir wollten es für unsern Datacenter ESX Betrieb nutzen. VMware Store für die VMs.
Klar kann man jetzt sagen, wann passiert sowas schon mal. Aber Dinge passieren nun mal leider.
Der Support von Synology hat schon die Logfiles inspiziert. Die konnten keinen Fehler finden.
Was haben wir falsch gemacht bzw. übersehen? Hat jemand ähnliche Ergebnisse erzielt oder erfahrungen gesammelt?
Danke schon mal
VG
ich hoffe ich platziere jetzt meine Fage im richtigen Unterforum.
Wir haben einen HA Cluster mit unseren beiden RS4017xs+ Knoten erstellt. Es gibt 3 Bonds pro Cluster.
Zusatzinfo:
Es gibt 2 Speicherpools
Raid 10 SSDs
Raid 5 HDDs
Konfig Node A + Node B identisch
Bond 1 (Active Standby Modus)
Managemet (Cluster)
LAN1 und Lan2 (jeweils 1 GBit)
Bond 2 (Balance XOR)
Heartbeat Direkt Verbindung ohne Switch
LAN 5 + LAN 6 (jeweils 10 Gbit / durch Bond 20 Gbit)
Bond 3 (LACP 802.3ad Dynamic Link)
LAN 7 +LAN 8 + LAN 9 + LAN 10 (jeweils 10 Gbit / durch Bond 20 Gbit)
Wir haben 2 Brocade 6650 (10Gbit Switch SFP+) die im Multichassis Trunk laufen Active-Active. Auf diesen beiden Switchen wurden jeweils 2 dynamische Lags konfiguriert. Pro Lag - 2 Ports.
Auf Switch 1 - LAG 1 kommen von Node A - Bond 3 - LAN 7 + LAN 8
Auf Switch 2 - LAG 1 kommen von Node A - Bond 3 - LAN 9 + LAN 10
Auf Switch 1 - LAG 2 kommen von Node B - Bond 3 - LAN 7 + LAN 8
Auf Switch 2 - LAG 2 kommen von Node B - Bond 3 - LAN 9 + LAN 10
Beide Speicherpools wurden mit NFS 4.1 auf ESX Servern gemountet.
Wir haben 2 VMs auf den Store migriert. Beide geöffnet in der VMWare Konsole.
Auf beiden läuft ein IO-Meter Test, der auf die Speicherpool Platten schreibt.
HDD + SSD
Wir haben dann diverse Failover Test durchgeführt:
Switch 1
LAG 1 (NodeA) - abgesteckt
IO Meter läuft weiter
LAG 1 (NodeA) auf Switch 2 vorhanden
Kein Failover da Node A auf Switch 2 vorhanden
LAG 1 (NodeA) - auf Switch 1 abgesteckt
LAG 1 (NodeA) auf Switch 2 auch abgesteckt
Failover wird eingeleitet, da nur noch LAG 2 - Node B auf Switch 1 und 2 vorhanden.
Somit wird Node B, der passive ist, zum aktiven Node.
Jetzt zu dem Problem
Die Dauer der Failovers dauerte fast 3 Minuten.
Erst dann fingen die IO Meter tests wieder an zu schreiben auf den VMs.
Für ein Simples System ist das zu verkraften, aber für ein ERP System oder Exchange ist das nicht sehr optimal.
Wir wollten es für unsern Datacenter ESX Betrieb nutzen. VMware Store für die VMs.
Klar kann man jetzt sagen, wann passiert sowas schon mal. Aber Dinge passieren nun mal leider.
Der Support von Synology hat schon die Logfiles inspiziert. Die konnten keinen Fehler finden.
Was haben wir falsch gemacht bzw. übersehen? Hat jemand ähnliche Ergebnisse erzielt oder erfahrungen gesammelt?
Danke schon mal
VG