Normale Ansicht

Es gibt neue verfügbare Artikel. Klicken Sie, um die Seite zu aktualisieren.
Ältere BeiträgeHaupt-Feeds

Cloudflare-Projekt zur Resilienz verursacht Ausfall

23. Juni 2022 um 08:04

Eine kurzer, aber weltweiter Ausfall der Cloudflare-Dienste hat Hunderte Kunden und Webseiten betroffen. Die Ursache war wohl ein BGP-Fehler.

Der Anbieter von Internetdiensten Cloudflare hat eine Zusammenfassung und Erklärung eines massiven Ausfalls seines Angebots veröffentlicht, das am Morgen des 21. Juni zwischen 6:34 Uhr und 8:06 Uhr UTC (8:34 bis 10:06 Uhr MESZ) zahlreiche Webseiten betraf. Viele Onlineangebote waren deshalb nicht erreichbar. Der Fehler sorgte laut Cloudflare für einen Abfall des Netzwerkverkehrs auf ungefähr 50 Prozent im Vergleich zur normalen Auslastung.

Ironischerweise wurde der Ausfall durch Änderungen verursacht, die laut Cloudflare, “Teil eines langjährigen Projekts zur Erhöhung der Ausfallsicherheit an unseren größten Standorten war”. Diese Standorte wickeln demzufolge den größten Teil des internen Netzwerkverkehrs ab. Eine Konfigurationsänderungen am Netzwerk sorgte aber für einen Ausfall an diesen Standorten.

Eigentlich sollte genau das durch eine neue Netzwerkarchitektur verhindert werden, die Cloudflare seit einiger Zeit in seinen großen Standorten umsetzt. Wichtigste Idee dabei ist laut dem Anbieter eine neue interne Routing-Ebene, die es ermöglicht, “Teile des internen Netzwerks in einem Rechenzentrum zu Wartungszwecken oder zur Behebung eines Problems einfach zu deaktivieren und zu aktivieren”.

Als technische Erklärung für den Ausfall schreibt Cloudflare, dass diese Netzwerke per BGP miteinander verbunden seien. Einzelne BGP-Richtlinien würden zudem sequenziell evaluiert und dann abgearbeitet. “Während wir eine Änderung an unseren Richtlinien zur Präfix-Ankündigung einführten, führte eine Neuordnung der Bedingungen dazu, dass wir eine wichtige Teilmenge von Präfixen zurückziehen mussten.” Das wiederum habe einen sich selbst verstärkenden Effekt gehabt, da dies den Technikern von Cloudflare erschwert habe, auf die betroffenen Systeme überhaupt zugreifen zu können.

Erschwert worden seien die Arbeiten darüber hinaus durch die Netzwerktechniker selbst, wie Cloudflare schreibt: “Dies verzögerte sich, da die Netzwerkingenieure die Änderungen gegenseitig übergingen und die vorherigen Rücknahme rückgängig machten, was dazu führte, dass das Problem sporadisch erneut auftrat.”

Der Beitrag Cloudflare-Projekt zur Resilienz verursacht Ausfall erschien zuerst auf Linux-Magazin.

❌
❌