Mehr über die Hintergründe des Google Mail-Serviceausfalls diese Woche

4. September 2009 | Freitag, September 04, 2009

Labels:

Diese Woche hatten wir einen weit verbreiteten Google Mail-Ausfall von etwa 100 Minuten.
Wir wissen, wie viele Menschen sich auf Google Mail für persönliche und berufliche Kommunikation verlassen, und wir nehmen es sehr ernst, wenn ein Problem mit dem Service auftritt. Zuersteinmal möchten wir uns also bei euch allen entschuldigen – der Serviceausfall war eine große Sache, und wir behandeln sie als solche. Wir haben bereits eingehend untersucht, was passiert ist, und wir arbeiten derzeit an der Erstellung einer Liste der Dinge, die wir als ein Ergebnis der Untersuchung beheben oder verbessern werden.

Hier eine Erklärung dafür, was passiert ist: Wir haben einen kleinen Teil der Google Mail-Server offline genommen, um Routine-Upgrades durchführen. Dies ist an sich kein Problem - wir machen das kontinuierlich, und das Google Mail-Web-Interface leitet den Datenverkehr auf andere Orte um, wenn einer ausfallen sollte.

Diesmal hatten wir allerdings die Last unterschätzt, die einige kürzlich durchgeführte Veränderungen (ironischerweise zur Systemstabilität) auf unsere Anfragen-Router (Server, die Anfragen dem entsprechenden Google Mail-Server zuweisen) ausüben würden.

Am Dienstag (01.09.2009)um 12.30 Uhr pazifischer Zeit waren einige Anfragen-Router überladen und teilten dem Rest des Systems im Prinzip mit "Hört auf, uns noch mehr Anfragen zuzuleiten, wir arbeiten zu langsam." Dadurch wurden alle Anfragen auf die verbleibenden Router umgeleitet, wodurch noch mehr von ihnen überladen wurden, und innerhalb von Minuten galt dies fast für sämtliche Router. Als Ergebnis konnte niemand mehr über die Web-Oberfläche auf Google Mail zugreifen, weil die Anfragen nicht an einen Google Mail-Server weitergeleitet werden konnten.

IMAP / POP-Zugänge und die Mail-Verarbeitung über E-Mail Clients funktionieren in der Regel weiterhin, weil diese Anfragen nicht über den gleichen Router laufen.

Das Google Mail-Engineering-Team wurde innerhalb von Sekunden über die Ausfälle alarmiert. Nachdem festgestellt worden war, dass nur unzureichende Kapazitäten zur Bearbeitung von Anfragen zur Verfügung standen, brachte das Team eine große Menge zusätzlicher Router online (diese flexible Kapazität ist einer der Vorteile der Architektur von Google). Auf diese zusätzlichen Router konnte dann der gesamte Verkehr verteilt werden, so dass die Google Mail-Weboberfläche wieder verfügbar war.

Wie geht es nun weiter? Wir haben unsere volle Aufmerksamkeit darauf gerichtet, ein solches Ereignis in Zukunft zu vermeiden. Einige unserer Maßnahmen sind einfach und sind bereits getan - zum Beispiel, die Anzahl der Router, die Zugriffsanfragen weiterleiten, weit über den Bedarf hinaus zu erhöhen, um uns für den Notfall mehr Spielraum zu verschaffen.

Andere Maßnahmen sind weniger offensichtlich: So haben wir zum Beispiel festgestellt, dass die Router im Falle einer Fehlfunktion nicht ausreichend isoliert werden können (wenn es in einem Rechenzentrum ein Problem gibt, sollte sich dies nicht auf Server in einem anderen Rechenzentrum auswirken). Außerdem reagieren sie nicht richtig, wenn ein Problem auftritt (anstatt dass überladene Router einfach aufhören zu arbeiten und den Datenverkehr umleiten, sollten eigentlich alle gemeinsam einfach langsamer arbeiten).

Wir ihr seht, haben wir aus dem Ausfall unsere Schlüsse gezogen und werden in den nächsten Wochen hart an der Umsetzung dieser und anderer Maßnahmen zur Verbesserungen der Zuverlässigkeit von Google Mail arbeiten.

Übersetzung von Heike Siemer, Google-Team
basierend auf einem Post von Ben Treynor, VP Engineering