Benachrichtigung aktivieren Dürfen wir Sie in Ihrem Browser über die wichtigsten Nachrichten des Handelsblatts informieren? Sie erhalten 2-5 Meldungen pro Tag.
Fast geschafft Erlauben Sie handelsblatt.com Ihnen Benachrichtigungen zu schicken. Dies können Sie in der Meldung Ihres Browsers bestätigen.
Benachrichtigungen erfolgreich aktiviert Wir halten Sie ab sofort über die wichtigsten Nachrichten des Handelsblatts auf dem Laufenden. Sie erhalten 2-5 Meldungen pro Tag.
Jetzt Aktivieren
Nein, danke

Totalausfall Automatisches Korrektursystem legt Facebook lahm

Das Internet-Netzwerk Facebook war wegen einer technischen Panne mehrere Stunden nicht für seine Nutzer zu erreichen. Ausgangspunkt des Fehlers war eine Konfigurationsänderung, die von einem automatischen Korrektursystem als falsch angesehen wurde.
  • Jens Ihlenfeld
Kommentieren
Eine Facebook-Seite: Fehler im System. Quelle: Reuters

Eine Facebook-Seite: Fehler im System.

(Foto: Reuters)

BERLIN. Der Ausfall von Facebook in der vergangenen Nacht war der größte seit vier Jahren, so die Betreiber des Social Network. Schuld war eine fehlerhafte Fehlerbehandlung. Ein automatisches Korrektursystem sorgt für gewöhnlich dafür, dass fehlerhafte Konfigurationswerte im Cache durch aktualisierte Werte im persistenten Speicher überschrieben werden. Im aktuellen Fall führte aber genau dies zum Zusammenbruch.

Ausgangspunkt war eine Konfigurationsänderung im persistenten Speicher, die das System als ungültig einstufte. Die Folge: Jedes Clientsystem erhielt den angeblich ungültigen Wert, versuchte diesen zu korrigieren und stellte dazu eine Anfrage an einen Datenbankcluster. Dieser brach schnell unter der Last der mehreren hunderttausend Anfragen pro Sekunde zusammen.

Verschlimmert wurde das Problem dadurch, dass jede fehlgeschlagene Anfrage an die Datenbank als ungültiger Wert behandelt wurde und der zugehörige Cache-Schlüssel gelöscht wurde. Das führte dazu, dass auch nach Korrektur des eigentlichen Fehlers die Zahl der Anfragen auf den Datenbankcluster hoch blieb. Das Ganze führte zu einer Feedbackschleife, die der Datenbank keine Gelegenheit ließ, sich zu erholen.

Die einzige Lösung bestand darin, sämtlichen Traffic auf das Datenbanksystem zu stoppen, was zugleich bedeutete, Facebooks Website abzuschalten. Danach konnte das Problem beseitigt und das System Stück für Stück wieder hochgefahren werden.

Mittlerweile läuft Facebook wieder, das Korrektursystem bleibt aber vorerst abgeschaltet. Facebooks Entwickler denken über ein neues Design des Systems nach, um auszuschließen, dass das System mehr Schaden anrichtet als es Fehler korrigiert.

Startseite

0 Kommentare zu "Totalausfall: Automatisches Korrektursystem legt Facebook lahm"

Das Kommentieren dieses Artikels wurde deaktiviert.

Serviceangebote