Spezialsuchmaschinen

Websuchmaschinen indexieren zwar z.T. viele Milliarden Dokumente, erfassen damit aber nur einen Teil des Internet. Die erfassten Ressourcen sind inhaltlich, strukturell und qualitativ sehr heterogen. Trotz der hohen Abdeckung und der oben dargestellten aufwändigen Sortiermechanismen besteht weiterhin Unsicherheit bezüglich Vollständigkeit und Qualität der Ergebnisse. Ein weiteres Problem ist, dass Suchmaschinen nur rudimentäre Optionen zur Suchraumbegrenzung aufweisen: meist Dateiformat, Domain, Datum, Sprachraum, Region.  Ausserdem bestehen nur geringe Möglichkeiten zur Durchführung strukturierter Anfrageformulierungen.

Speziell auf einen bestimmten Gegenstandsbereich fokussierte oder dokumenttypbezogene Spezialsuchdienste sind in ihrer Domäne wesentlich mächtiger als Websuchmaschinen. Sie sind in der Lage spezifische, auf ihren Kontext bezogene Funktionalitäten bereitzustellen. Spezialsuchmaschinen versuchen damit, die Schwächen von Universalsuchmaschinen zu kompensieren bzw. eröffnen zusätzliche Suchoptionen.

Im Folgenden wird ein Überblick über wichtige Spezialsuchdienstetypen gegeben. Es handelt sich um:

Damit wird die bisherige Darstellung „allgemein“ ausgerichteter Suchdienstetypen durch die wichtigsten speziellen Suchdienstetypen ergänzt [1].

News-und Blogsuchmaschinen

News- und Blogsuchmaschinen zielen darauf ab, aktuelle Inhalte verfügbar zu machen. Newssuchmaschinen fokussieren auf klassische journalistische Nachrichten (i.d.R. erstellt von professionellen Fachleuten bzw. Agenturen). Blogsuchdienste dagegen versuchen die Inhalte der Blogosphäre (d.h. Community aller Blogs) zu erschließen. Die Blogs werden meist von Privatpersonen, Firmen oder Organisationen verfasst.

Kern der News- oder Nachrichtensuchmaschine stellt ein gesonderter Index dar. Dieser kann aus einem Teilbestand des Webindex aufgebaut werden, indem spezielle Nachrichtenwebseiten (z.B. Tageszeitungen) etwa im Minutentakt, „gecrawlt“ werden. Es ist ausserdem möglich, Nachrichtenbestände zu kaufen, d.h. z.B. bei Nachrichtenagenturen (Feeds) zu erwerben und zu indexieren. Anhand der vorstrukturierten Feeds ist es für die Suchmaschine einfach, den Zeitpunkt der jeweiligen Nachricht zu extrahieren. Bei selbständig indexierten Webseiten ist dies aufwändiger und muss mit Hilfe spezieller, (halb)automatischer Methoden vorgenommen werden.

Auf dieser Grundlage ist es für Newssuchmaschinen möglich, zeitbasierte Sortier- und Anfragekriterien bereitzustellen. Im Unterschied zu den bei Newssuchdiensten speziell ausgewählten Nachrichtendiensten fokussieren Blogsuchdienste auf die Inhalte der Blogosphäre, d.h. sie zielen auf den Teil des Web, dem eine besonders hohe Aktualität zugeschrieben wird und dessen Inhalte von jedermann generiert werden können. Aus der Perspektive einer Suchmaschine weisen Blogs im Vergleich zu Standard-HTML-Seiten meist die Besonderheit auf, dass die Inhalte auch in Form strukturierter XML-Formate (RSS-Feeds) bereitgestellt werden.

RSS-Formate haben strukturelle Ähnlichkeiten mit Feeds, die von Suchmaschinen bei Nachrichtenanbietern erworben werden können. Sie sind wesentlich einfacher und einheitlicher aufgebaut als HTML-Seiten, die oft aus ineinander geschachtelten Tags bestehen. Das Erstellungsdatum einzelner Blogbeiträge kann daher relativ einfach extrahiert werden. Bei Blogsuchmaschinen wie z.B. Google Blog Search ist es daher möglich, eine Sortierung nach Datum vorzunehmen und diese bieten dem Nutzer somit die Möglichkeit Datumsbereiche zu durchsuchen. Die folgende Abbildung zeigt diese Optionen auf der Trefferseite von „Google Blog Search“.

Abb. 1: Google Blog Search
Abb. 1: Google Blog Search

Festzuhalten bleibt: News- und Blogsuchmaschinen bieten einerseits den Zugriff auf einen Teilbestand des Web, dem eine besonders hohe Aktualität zugeschrieben wird und erlauben zugleich strukturiertere Anfragen als universell ausgerichtete Websuchmaschinen. [1]

(Multi)Mediasuchdienste

Bislang standen Textobjekte bzw. die textbasierte Repräsentation von Wissensobjekten im Fokus. Die Suche nach (bewegten) Bildern und gesprochenem Text bzw. Musik stützt sich zwar meist noch auf objektbeschreibende Texte bzw. erfasste Metadaten, zunehmend wird aber die Berücksichtigung der Inhalte selbst angestrebt. Die simpelste Form eines Multimediasuchdienstes stellen Tagging Communities wie z.B. Flickr und YouTube dar. In diesen Diensten werden Bilder bzw. Videos primär über die von Nutzern eingetragenen bzw. erzeugten Schlagwörter und Metadaten erschlossen.

Suchmaschinen sind einerseits in der Lage die in Webdokumenten eingetragenen Objekttitel bzw. alternative Textbezeichnungen und Metainformationen (z.B. Dateityp und Dateigrösse) auszuwerten. Andererseits können sie aber auch Kontextinformationen in Form von Termen, welche die jeweiligen Objekte umgeben oder mittels Links auf diese verweisen, evaluieren.

Einsatz von Visualisierungskonzepten

Die Google-Bildsuche soll z. B. eine Gesichtserkennungssoftware nutzen, die es gestattet, die Bildersuche auf Gesichter einzuschränken. Die Entwicklung derartiger Technologien steht zwar noch am Anfang, schreitet aber in schnellem Tempo voran [1].

Aktuell kann auf dem Suchdienstemarkt ein steigendes Angebot an Systemen beobachtet werden, die mit spezifischen Visualisierungstechniken experimentieren oder diese schon einsetzen. Die Idee der Informationsvisualisierung im Internet ist dabei keineswegs neu. Schon unmittelbar nach dem Durchbruch des WWW Mitte der 1990er Jahre wurden Ansätze erarbeitet, wie man über spezifische graphische Darstellungen bzw. Visualisierung Informationsräume für Nutzer intuitiver gestalten kann. Die zugehörigen Konzepte reichten von einfachen Graphen zur Darstellung von Verlinkungen auf Webseiten bis hin zu virtuellen Welten in dreidimensionaler Form.

Der große Durchbruch blieb jedoch weitgehend aus. Die Ideen scheiterten an zu komplexen Technologien und Darstellungen, die zuerst von Anwendern erlernt werden mussten, aber nicht die erhofften Mehrwerte schafften. Die Entwicklung musste jedoch aufgrund der zunehmenden Menge an Formen und Inhalten und aufgrund der technologischen Möglichkeiten fortgesetzt werden. Mittlerweile werden sowohl bekannte als auch ganz neue Visualisierungskonzepte angeboten. Im Gegensatz früheren Konzepten müssen diese nicht in spezifischen Umgebungen angewandt werden, sondern können im Realbetrieb auf entsprechenden Webseiten ausprobiert werden.

Visualisierung wird bei Suchmaschinen vor allem zur Ergebnisdarstellung eingesetzt. Durch hohe Trefferzahlen und die Heterogenität der Treffer wird das Sichten und Auswerten von Ergebnissen für die Nutzer erschwert. Der Suchdienst Mnemomap z.B. zeigt dem Benutzer verwandte Begriffe oder Übersetzungen des Suchbegriffes. Dargestellt werden dies Begriffe in einer Art Baumstruktur. Der eingegebene Suchbegriff kann durch anklicken eines vorgeschlagenen Begriffes erweitert werden. Andere Konzepte wie z.B. Liveplasma versuchen den Informationsraum auf Basis von semantisch-lexikalischen Algorithmen zuerst zu strukturieren (im Beispiel über Clustering) und wenden anschließend darauf basierend Visualisierungsformen an, um den Benutzern die Zusammenhänge geeignet zu vermitteln.

Visualisierungen bei Suchdiensten findet man ferner auch bei der Suchanfragenformulierung bzw. zu deren Verbesserung. Ausserdem wird Visualisierung auch für spezifische Inhaltsformen wie z.B. zeitbezogene oder geographische Bezugspunkte verwendet. Der Mehrwert bei der Visualisierung geographischer Bezugspunkte liegt auf der Hand: Weist eine Suchanfrage Bezüge wie Firmen-, Orts-, Straßennamen oder gar exakte Adressen auf, lassen sich nicht nur Positionen auf Landkarten darstellen, sondern es können auch interessante Objekte in der Umgebung (z.B. Hotels, Restaurants, Haltestationen) eingeblendet werden oder zusätzliche Dienste (z.B. Routenberechnung) angeboten werden. Die Umsetzung der sogenannten Geovisualisierung bei Suchdiensten wie z.B. Google Maps, setzt entweder die Verwendung von direkten Geobezugspunkten in einer Suchanfrage (z.B. Orts-/Straßennamen) voraus oder basiert auf dem einfachen Abgleich mit Branchendatenbanken (z.B. bei der Suche nach „Pizzeria“), um entsprechende Bezugspunkte zu einer Suchanfrage zu generieren.

Ansätze, bei denen mittels „intelligenter“ Verfahren geographische Zusammenhänge bei Ergebnismengen eruiert und dargestellt werden können (wie z.B. bei einer Anfrage nach „Sehenswürdigkeiten in Berlin“), gibt es bei den heutigen Suchdiensten noch nicht. Es ist festzuhalten, dass Lösungen auf diesem Gebiet nach wie vor nicht ausgereift sind. Noch wird nicht die nötige intuitive Bedienbarkeit oder zumindest ein damit verbundener geringer Lernaufwand gewährleistet und eindeutige Mehrwerte gegenüber den heutigen textlastigen Darstellungsformen konnten auch noch nicht geboten werden. [1]
Weitere Spezialsuchdienste sind im Kapitel Suchdienste zu finden.