Es gibt Tage, da passiert nix und es gibt Tage, da kommt Murphy vorbei. Es war Montag, ich unterwegs aber mit voller Ausrüstung für Notfälle. Leider stellte sich im Laufe der Zeit heraus, dass ich in einem absolutem Niemandsland spazierte, bei dem noch noch einmal telefonieren möglich war. Kein Netz!
Ich lief mit leichter Nervosität durch einen Park, immer mit dem starren Blick auf das “Kein Netz!”. Was soll schon passieren …
Es passierte einiges …
Beim Verlassen des Parks hatte ich kurz Netz und bekam prompt eine Nachricht vom Kollegen (der im Urlaub ist) via Threema. Nicht gut. Wie gut, dass mein Kollege just an diesem Tag aus Spanien zurück war und eingreifen konnte, während mein Telefon mich mit “Kein Netz!” (Hallo Telekom !) anschrie.
Es hatte sich herausgestellt, dass der RZ Betreiber beim prüfen der Kabel für eine Darkfiber (die nicht mehr benötigt wird), eine Faser beim verschließen des Racks mit eingeklemmt hatte. Unglücklicherweise war diese Faser nicht irgend eine, sondern ebenfalls eine Faser, die zum zweiten Standort führt.
Unsere Systeme sind eigentlich so konstruiert, dass – mit einiger Arbeit – ein Standort in relativ kurzer Zeit autark laufen kann. Grundvoraussetzung ist allerdings, dass für alle Beteiligten klar ist, dass eine Verbindung tot ist. An dieser Stelle kam das zweite Problem zum tragen: OpenSense + Duplex ST/LC LWL Kabel.
Das Kabel war wohl nicht wirklich komplett tot, sondern entweder RX oder TX. Das führte dazu, dass weder der Ubiquity EdgeSwitch 16-XG, noch der IPSec Tunnel von OpnSense sich dazu genötigt sahen, Interface oder Tunnel herunterzufahren. Das wiederum ließ den Eindruck erscheinen, dass der VPN Tunnel aktiv sei, doch es ging kein Verkehr durch. Wäre der Tunnel unten gewesen, hätte jeder Service MongoDB/Redis und Co. zügig ein “host unreachble” erhalten und sich neu organisiert. Stattdessen haben sie ewig auf die Antwort gewartet …
Die einzige Lösung war ein Reboot des OpnSense Cluster am aktiven Standort. Kurz darauf haben sich die Dienste stabilisiert und der Service konnte seine Arbeit wieder aufnehmen.
Zwischen: Oh, wir haben ein Problem, bis zum “Service klappt wieder” liegt rund eine Stunde.
Alles an einem Montag; wann sonst.
Ich mache dem RZ Betreiber keinen Vorwurf; unser Rack ist brechend voll und die Kabel sind dünn. Man hätte sich in diesem Fall gewünscht, dass dies angekündigt hätte werden können, allerdings gehört es zum Alltag, weil Kunden Kabel ab/bestellen und die Kabel geprüft und angepasst werden müssen. Mir muss ich vorhalten, dass die Darkfiber nur über den Port geprüft wurde, nicht jedoch auf Durchgang. Das habe ich heute natürlich nachgeholt. Auch die Tür wird überwacht, aber es dauert, bis die erste Nachricht an alle rausgeht. Auch gefixt.
Gelernt haben wir, dass Murpy zu jeder Zeit auftauchen kann und sich immer ein Loch findet, welches nicht überwacht wird. Aber die Löcher werden mit der Zeit kleiner :-)