Die Funktionsweise

Sie wollten schon immer wissen, wie Suchmaschinen funktionieren? Lesen Sie die Beschreibung dazu in den folgenden Abschnitten.


URL-Listen

Roboterbasierte Suchmaschinen


Aufgaben einer Suchmaschine:

  1. Dokumentenbeschaffung (Akquisition)
  2. Indexierung
  3. Aktualisierung
  4. Anfragebearbeitung

URL-Listen

Ganz am Anfang, also beim Aufbau einer Suchmaschine, steht eine Start-URL-Liste, die zunächst vom Betreiber aufgestellt wird. Diese URL Liste kann sich aus bekannten Web-Sites, manchmal auch aus Katalogrubriken bzw. Hub-Pages anderer Anbieter zusammensetzen. Diese Liste wird dann von einem Roboter Adresse um Adresse abgearbeitet. Die so erreichten Seiten werden zunächst inhaltlich erschlossen und die gefundenen Verweise an die URL-Liste angehängt. Dann werden die noch nicht verarbeiteten Adressen der URL-Liste nach dem gleichen Schema weiterverarbeitet.


Zum Seitenanfang

Roboterbasierte Suchmaschinen

Roboterbasierte Suchmaschinen sind die am weitesten verbreitete Art von Suchdiensten im Web. Sie verwenden maschinelle Verfahren zur Dokumentenbeschaffung, der Inhalterschliessung und der Spezifizierung der Treffermengen auf Methoden des Information Retrieval. Die folgende Abbildung zeigt die wesentlichen Komponenten einer Suchmaschine [2]. Bei der Inhalterschliessung, d.h. dem Aufbau einer resultierenden Indexdatenbank und der Suche in dieser, wird auf bewährte Techniken des Information Retrieval zurückgegriffen. Roboterbasierte Suchverfahren, auch teilweise in Kombination mit Web-Katalogen, sind heute die dominierenden Werkzeuge zur Suche im WWW.

Abb. 1: Websuchmaschine [2]
Abb. 1: Websuchmaschine [2]

Dokumentenbeschaffung (Akquisition)

Bei der Dokumentenbeschaffung stellt sich die Frage, wie Suchmaschinen an Startpunkte, beziehungsweise Startseiten, für die weitere rekursive Erkundung gelangen. Dazu benutzen Suchmaschinen in der Regel Kataloge oder andere Suchmaschinen. Teilweise können von Benutzern Vorschläge in einer dafür eingerichteten WWW-Seite eingetragen werden. Meist findet die Dokumentenbeschaffung aber über Programme statt, weshalb man von maschinellen oder roboterbasierten Verfahren spricht. Die verschiedenen Programme zur Dokumentenbeschaffung werden als Roboter, Spider, Crawler, Wanderer oder Worm bezeichnet.

Die Anwendungsmöglichkeiten von Robotern sind vielfältig. Die wichtigste Anwendung ist das Auffinden weltweiter Dokumente für eine Suchmaschine im WWW. Daneben können sie beispielsweise aber auch nicht mehr erreichbare Verweise (Dead-Links) aufspüren.

Diverse Suchmaschinen (Search Engines) sind laufend in Betrieb und deren Roboter arbeiten große Teile des Webs regelmässig ab. Die zugehörigen Volltextindizes oder auch nur Teilindizes der Dokumente werden in Datenbanken gespeichert. Diese Datenbanken bilden die Grundlage für die Suchmaschinen bzw. Suchserver, die über Benutzerschnittstellen mit diversen Abfrageformularen die Suche nach Dokumenten im Internet ermöglichen. Ausgehend von der URL-Liste werden die Hyperlinks des Webs traversiert und die Inhalte der HTML-Dokumente und weitere textbasierte Dateiformate extrahiert [2]. Der Rest wird über WWW-Hypertextstrukturen automatisch weiterverfolgt. Die so erreichten Seiten werden verarbeitet, ihre URLs in einem Register gespeichert und in regelmäßigen Abständen wieder besucht und aktualisiert.

Neben der Indexierung von Dokumenten, die als HTML-Dateien im World Wide Web vorliegen, werden auch weitere Dokumentformate wie PDF (Portable Document Format), Postscript oder Worddateien geladen und inhaltlich erschlossen. Selbst Grafiken, wie z. B. GIF-Dateien oder JPEG-Dateien, werden auf vorhandenen Text untersucht.

Es gibt jedoch auch die Möglichkeit die Indexierung auszuschliessen, d.h. die WWW-Server vor Roboterzugriffen zu schützen. Websitebetreiber können zum Beispiel den Suchmaschinenrobotern mitteilen, dass ihre Domain bzw. Teilbereiche davon nicht indexiert werden sollen. Die entsprechenden Anweisungen werden in einer Textdatei namens Robots.txt hinterlegt. Geregelt ist dies im Robots-Exclusion-Standard.

Abgesehen von dieser Massnahme ist sowieso ein grosser Teil der Dokumente,  die im World Wide Web bereitstehen, für Suchmaschinen nicht erreichbar. Sie können so auch nicht in den Suchmaschinen-Index aufgenommen und auffindbar gemacht werden. Ein Beispiel sind Dokumente, die durch Passwort, Registrierung oder eine Firewall geschützt sind. Aber auch neu erstellte oder aktualisierte Dokumente sind für Suchmaschinen nicht sofort erreichbar. In diesem Zusammenhang spricht man vom "Invisible Web"oder "Deep Web". Vielfältige Bemühungen zur Indexierung des Deep Web sind klar erkennbar.


Zum Seitenanfang

Indexierung

Das Angebot von Suchmethoden und -operatoren ist stark von der Indizierung und der daraus resultierenden Datenbank abhängig. Wie aber die vom Roboter laufend zusammengetragenen HTML-Seiten tatsächlich indiziert werden, lassen die einzelnen Suchmaschinenanbieter nur zum Teil erkennen. Man kann aber davon ausgehen, dass dabei die Methoden des klassischen Retrieval als Grundlage dienen. Wenn Suchmaschinen den Volltext von Webseiten erschliessen, wird die exakte Schreibweise erfasst und Groß- und Kleinschreibung sowie Umlaute meist normalisiert.

„Neben den Stichwörtern werden auch:

  • HTML-Strukturinformationen (HTML-Tags),
  • ausgehende Links,
  • dokumentinhärente Metainformationen (Meta-Tags),
  • weitere formale Elemente (z.B. Dateigröße, Änderungsdatum),
  • eingebettete Elemente (z.B. Dateinamen von Bildern, Java-Applets, Kommentare, unbekannte Elemente, die nicht vom Browser angezeigt werden usw.)
  • und teilweise auch Formatelemente (z.B. Schriftgröße, Farbe)

erfasst.“ [2]


Auch im Umfang der Indizierung werden teilweise unterschiedliche Strategien verfolgt:

  • Volltext: Bei den meisten Suchmaschinen werden inhaltsbedeutende Begriffe oder Elemente aus der gesamten HTML-Seite indiziert. Ausgeschlossen werden die Begriffe aus mehrsprachigen Stoppwortlisten.
  • Teilindex: Suchmaschinen mit einem Teilindex indizieren meistens URL, Titel (TITLE-Element) und Überschriften (Hx-Elemente) oder auch die ersten paar Zeilen der WWW-Seite.
  • Spezielle Inhaltsbeschreibende Bereiche: Das Meta-Tag oder korrekter bezeichnet Meta-Element ist ein spezielles HTML-Element, über das der Autor eines Dokuments selbst Deskriptoren und Zusatzinformationen über die WWW-Seite strukturiert hinterlegen kann. Suchmaschinen, die solche Meta-Elemente unterstützen, extrahieren aus diesen die Metainformationen, so dass keine eigene Analyse bzw. Indizierung der Seite gemacht wird. Dieses Verfahren wird gerne bei Frame-Dokumenten genutzt, da Suchmaschinen diese in der Regel nicht korrekt nachweisen können.


Zum Seitenanfang

Aktualisierung

Die bekanntesten Suchmaschinen bearbeiten bis zu mehreren Dutzend Millionen Anfragen pro Tag. Die Verarbeitung und Aktualisierung einer stark wachsenden Anzahl von WWW-Dokumenten weltweit, sowie die grosse Menge von Suchanfragen, stellt höchste Ansprüche an Hard- und Software des Suchservers. 

Durch das "if-Modified-Since"-Feld" im HTTP-Protokoll ist technisch gesehen beim Übertragen einer WWW-Seite, ein für die Aktualisierung wichtiger Mechanismus vorhanden. Über die Angabe dieses Feldes kann beim Laden eines Dokuments über das Internet, die Übertragung von der letzten Änderung (Datum und Uhrzeit) abhängig gemacht werden. Das heisst, falls das Dokument seit dieser Zeitangabe geändert wurde, wird das Dokument übertragen, sonst nicht. Leider wird dieser Mechanismus nicht von allen WWW-Servern unterstützt und ist auch bei Programmen oder Datenbanken, die dynamische Dokumente generieren, nur selten implementiert.

Ein Problem, das bei Suchmaschinen auftritt, ist die nicht unerhebliche Menge an "Dead-Links". Diese ergeben sich dann, wenn in der Index-Datenbank der Suchmaschine noch Einträge für Seiten des WWW in Form von Links enthalten sind, die sich nicht mehr an der zum Zeitpunkt der Indexierung gültigen URL befinden.

Die Aktualisierung der Webseiten im Index der Suchmaschinen sollte eigentlich in regelmässigen, kurzen Abständen erfolgen. Tatsächlich liegen aber oft mehrere Monate zwischen den Indizierungen. Das spielt bei Webseiten, deren Inhalt sich wenig ändert, keine Rolle. Manche Server dagegen sind auf Aktualität angewiesen.


Zum Seitenanfang

Anfragebearbeitung

Wie bereits angedeutet, ist das Angebot an Funktionalität bei der Anfragenbearbeitung abhängig von der Inhaltserschließung der Dokumente. Je besser die Analyse und Indizierung der HTML-Seiten ist, desto umfangreicher ist das Angebot an Suchmethoden und -operatoren. Die Benutzerschnittstelle ist nach Funktionalität ausgerichtet und bei den meisten Suchmaschinen über verschiedene Stufen bedienbar:

  • Verschiedene Suchmodi (Einfache / Erweiterte Suche)
  • Formularbasierte Suchmasken mit diversen Einstellmöglichkeiten
  • Voreinstellungen werden teilweise über Buttons, Menüs, Listen usw. ausgewählt.
  • Java-basierte Suchmasken (eher selten)
  • Ergebnislisten mit Ranking, Sortierung, Blätterfunktionen usw.

Die Treffermenge wird dem Benutzer sortiert nach einer internen Relevanzberechnung (Ranking) der jeweiligen Suchmaschine präsentiert. Hinsichtlich der Frage, welche Methoden der Relevanzbeurteilung eingesetzt werden, halten sich die Betreiber der Suchmaschinen bedeckt.
Die Aspekte der Trefferanzeige und der Relevanzbeurteilung finden Sie im Kapitel Anzeige und Sortierung der Treffermenge.

Sie möchten noch mehr über die Funktionsweise von Suchmaschinen erfahren?
In unserem Mitgliederbereich finden Sie ein PDF mit detaillierten Informationen zum Download. Hier zur kostenlosen Registrierung.


Zum Seitenanfang