_

Totalausfall: Automatisches Korrektursystem legt Facebook lahm

Das Internet-Netzwerk Facebook war wegen einer technischen Panne mehrere Stunden nicht für seine Nutzer zu erreichen. Ausgangspunkt des Fehlers war eine Konfigurationsänderung, die von einem automatischen Korrektursystem als falsch angesehen wurde.

Eine Facebook-Seite: Fehler im System. Quelle: Reuters
Eine Facebook-Seite: Fehler im System. Quelle: Reuters

BERLIN. Der Ausfall von Facebook in der vergangenen Nacht war der größte seit vier Jahren, so die Betreiber des Social Network. Schuld war eine fehlerhafte Fehlerbehandlung. Ein automatisches Korrektursystem sorgt für gewöhnlich dafür, dass fehlerhafte Konfigurationswerte im Cache durch aktualisierte Werte im persistenten Speicher überschrieben werden. Im aktuellen Fall führte aber genau dies zum Zusammenbruch.

Anzeige

Ausgangspunkt war eine Konfigurationsänderung im persistenten Speicher, die das System als ungültig einstufte. Die Folge: Jedes Clientsystem erhielt den angeblich ungültigen Wert, versuchte diesen zu korrigieren und stellte dazu eine Anfrage an einen Datenbankcluster. Dieser brach schnell unter der Last der mehreren hunderttausend Anfragen pro Sekunde zusammen.

Verschlimmert wurde das Problem dadurch, dass jede fehlgeschlagene Anfrage an die Datenbank als ungültiger Wert behandelt wurde und der zugehörige Cache-Schlüssel gelöscht wurde. Das führte dazu, dass auch nach Korrektur des eigentlichen Fehlers die Zahl der Anfragen auf den Datenbankcluster hoch blieb. Das Ganze führte zu einer Feedbackschleife, die der Datenbank keine Gelegenheit ließ, sich zu erholen.

Die einzige Lösung bestand darin, sämtlichen Traffic auf das Datenbanksystem zu stoppen, was zugleich bedeutete, Facebooks Website abzuschalten. Danach konnte das Problem beseitigt und das System Stück für Stück wieder hochgefahren werden.

Mittlerweile läuft Facebook wieder, das Korrektursystem bleibt aber vorerst abgeschaltet. Facebooks Entwickler denken über ein neues Design des Systems nach, um auszuschließen, dass das System mehr Schaden anrichtet als es Fehler korrigiert.

Quelle: Golem.de
  • Die aktuellen Top-Themen
Ethik-Diskussion: Wann ist ein Hacker ein guter Hacker?

Wann ist ein Hacker ein guter Hacker?

Bei einer Tagung des Chaos Computer Club haben Hacker versucht, für sich eine neue Ethik zu formulieren. Doch die Szene streitet, was Hacker dürfen sollen.

Expo 2012: Viel High Tech, wenig Gäste

Viel High Tech, wenig Gäste

Mit einer Expo zur nachhaltigen Nutzung der Meere will Südkorea Gäste aus aller Welt ins Land locken. Allein im deutschen Pavillon stecken 15 Millionen Euro. Doch die ersten Besucherzahlen waren enttäuschend.

Dragon besucht ISS: Das Andock-Manöver in Bildern

Das Andock-Manöver in Bildern

Erstmals dockt an der Raumstation ISS etwa 350 Kilometer über der Erdoberfläche ein privat finanzierter Raumtransporter an. Die beeindruckenden Bilder zu einem Meilenstein der Raumfahrtgeschichte.

  • Video

Auto-Visionen Viel Power für wenig Euro - Mazda 3 MPS

Über das Design des sportlichen Japaners kann man streiten - über das Preis-Leistungsverhältnis nicht. Für weniger als 30.000 Euro bietet Mazda satte 260 Pferdestärken. Was sonst noch im MPS steckt, klärt unser Fahrtest.