Google’s neuer Suchindex: Caffeine

9. Juni 2010 | Mittwoch, Juni 09, 2010

Wir freuen uns, heute unser neues Web-Indexierungssystem Caffeine vorzustellen. Caffeine liefert frische Ergebnisse für Websuchen – tatsächlich ist Caffeine über 50 Prozent aktueller als unser letzter Index und unsere bisher größte Sammlung von Webinhalten. Ob es sich um Nachrichten handelt, einen Blog oder einen Forumsbeitrag: Mit Caffeine findet ihr Links auf relevante Inhalte bereits viel früher nach der Veröffentlichung, als es je zuvor möglich war.

Hier einige Hintergrundinformationen für diejenigen unter euch, die sich nicht so viel mit Suchmaschinen befassen wie wir: Wenn ihr mit Google sucht, durchsucht ihr nicht live das eigentliche Internet. Stattdessen wird in Google’s Webindex gesucht, wie in einem Verzeichnis in einem Buch, mit dem man über Stichworte die gewünschten Informationen findet.

Warum haben wir also ein neues Indexierungssystem entwickelt? Dafür gibt es zwei Gründe: Zum einen vermehren sich Inhalte im Web laufend. Nicht nur der Umfang von Inhalten und die Anzahl der Einträge nehmen zu. Durch Videos, Bilder, Nachrichten und Aktualisierungen in Echtzeit wird eine durchschnittliche Webseite auch inhaltsreicher und komplexer. Zum anderen sind die Ansprüche der Nutzer an die Suche höher als früher. Suchende möchten die neuesten relevanten Inhalte finden. Und Autoren erwarten, sofort mit der Veröffentlichung ihrer Werke im Internet auffindbar zu sein.

Um mit der Entwicklung des Web Schritt halten und die steigenden Erwartungen der Nutzer erfüllen zu können, haben wir Caffeine entwickelt. Die Abbildung unten zeigt, wie Caffeine im Vergleich zu unserem alten Indexierungssystem funktioniert:


Unser alter Index umfasste mehrere Ebenen, von denen manche häufiger aktualisiert wurden als andere. Ein großer Teil des gesamten Index wurde lediglich alle paar Wochen aktualisiert. Um eine einzelne Ebene des alten Index zu aktualisieren, mussten wir das gesamte Web analysieren. Dies führte zu einer deutlichen Verzögerung zwischen dem Zeitpunkt, an dem wir eine Seite fanden, und dem Zeitpunkt, an dem wir sie euch zur Verfügung stellen konnten.

Mit Caffeine können wir das Web in kleinen “Portionen“ analysieren und unseren Suchindex kontinuierlich aktualisieren – und das weltweit. Dies bedeutet, dass ihr bei eurer Online-Suche mittels Caffeine die aktuelle Version eurer gesuchten Informationen findet. Unabhängig davon, wann oder wo es veröffentlicht wurde.

Caffeine ermöglicht uns das Indexieren von Webseiten in einem enormen Umfang. Tatsächlich verarbeitet Caffeine in jeder Sekunde Hunderttausende von Webseiten gleichzeitig. Wenn es sich hier um einen Stapel Papier handeln würde, würde dieser jede Sekunde fünf Kilometer höher werden. Caffeine belegt fast 100 Millionen Gigabyte Speicherplatz in einer Datenbank und fügt neue Informationen mit einer Rate von Hunderttausenden von Gigabyte pro Tag hinzu. Ihr bräuchtet etwa 625.000 iPods mit dem größten Speicherplatz, um diese Menge an Informationen zu speichern.
Aneinandergelegt würden diese insgesamt eine Länge von über 64 Kilometern erreichen.

Wir haben Caffeine mit Blick auf die Zukunft entwickelt. Es bildet eine solide Grundlage, auf der wir eine schnellere und umfassendere Suche aufbauen können. Caffeine ist viel besser skalierbar, um die wachsende Menge an Online-Informationen verarbeiten zu können. Weitere Verbesserungen könnt ihr bereits im Laufe dieses Sommers und in den folgenden Monaten erwarten.

Post von Carrie Grimes, Software Engineer