Spezialsuchmaschinen

„Websuchmaschinen indexieren zwar z.T. viele Milliarden Dokumente, erfassen damit aber derzeit nur einen Teil des Internet. Dabei sind die erfassten Ressourcen inhaltlich, strukturell und qualitativ sehr heterogen, so dass trotz der hohen Abdeckung und der oben dargestellten aufwändigen Sortiermechanismen eine hohe Unsicherheit bezüglich der Vollständigkeit und Qualität der Ergebnisse besteht. Hinsichtlich der Repräsentation der indexierten Objekte ist festzuhalten, dass diese meist nur einen geringen, je nach Dokumenttyp auch unterschiedlichen Strukturierungsgrad aufweisen und dass, sofern vorhanden, Metadaten nicht a priori als verlässlich einzustufen sind. Nicht zuletzt aus diesem Grund weisen Suchmaschinen nur rudimentäre Optionen zur Suchraumbegrenzung auf: meist Dateiformat, Domain, Datum, Sprachraum, Region. D.h. es bestehen erhebliche Defizite bzw. nur geringe Möglichkeiten zur Durchführung strukturierter Anfrageformulierungen.

Speziell auf einen bestimmten Gegenstandsbereich fokussierte oder dokumenttypbezogene Spezialsuchdienste sind in ihrer Domäne wesentlich mächtiger, da sie in der Lage sind, spezifische, auf ihren jeweiligen Kontext bezogene Funktionalitäten bereitzustellen. Diese (…) versuchen damit, die Schwächen von Universalsuchdiensten zu kompensieren bzw. eröffnen zusätzliche Suchoptionen. Im Folgenden wird ein Überblick über wichtige Spezialsuchdienstetypen gegeben. Es handelt sich um:

News & Blogsuchmaschinen
Wissenschaftssuchmaschinen
Online-Datenbanken
(Multi)Mediasuchdienste
Einsatz von Visualisierungskonzepten

Damit wird die bisherige Darstellung „allgemein“ ausgerichteter Suchdienstetypen durch die wichtigsten speziellen Suchdienstetypen ergänzt.“ [1, S. 31]

Zum Seitenanfang

 

News & Blogsuchmaschinen

„News und Blogsuchmaschinen zielen darauf, aktuelle Inhalte verfügbar zu machen. Während Newssuchmaschinen klassische journalistische Nachrichten, i.d.R. erstellt von professionellen Fachleuten bzw. Agenturen, fokussieren, versuchen Blogsuchdienste die Inhalte der Blogosphäre, d.h. der Community aller Blogs zu erschließen, welche oftmals oder überwiegend von Privatpersonen, Firmen oder Organisationen verfasst werden. Kern der News- oder Nachrichtensuchmaschine stellt ein gesonderter Index dar. Dieser kann zum einen aus einem Teilbestand des Webindex aufgebaut werden, indem spezielle Nachrichtenwebseiten, z.B. Tageszeitungen, hochfrequent, etwa im Minutentakt, „gecrawlt“ werden. Ergänzend oder alternativ ist es möglich, Nachrichtenbestände zu kaufen, d.h. z. B. bei Nachrichtenagenturen (Feeds) zu erwerben und zu indexieren. Insbesondere im letzten Fall ist es für die Suchmaschine besonders einfach, aus den bereits vorstrukturierten Feeds den Zeitpunkt der jeweiligen Nachricht zu extrahieren, während dies bei selbstständig indexierten Webseiten aufwändiger ist und bspw. durch speziell angepasste (halb)automatische Extraktionsheuristiken vorgenommen werden kann.

Auf dieser Grundlage ist es für Newssuchmaschinen möglich, zeitbasierte Sortier- und Anfragekriterien bereitzustellen. Im Unterschied zu den bei Newssuchdiensten speziell ausgewählten Nachrichtendiensten fokussieren Blogsuchdienste die Inhalte der Blogosphäre. D.h. sie zielen auf den Teil des Web, dem eine besonders hohe Aktualität zugeschrieben wird und dessen Inhalte quasi von jedermann generiert werden können. Aus der Perspektive einer Suchmaschine weisen Blogs im Vergleich zu Standard-HTML-Seiten meist die Besonderheit auf, dass die Inhalte auch in Form strukturierter XML-Formate (RSS-Feeds) bereitgestellt werden.

RSS-Formate sind strukturell ähnlich oder gleich den Feeds, die von Suchmaschinen bei Nachrichtenanbietern erworben werden können. D.h. sie sind wesentlich einfacher und einheitlicher aufgebaut als HTML-Seiten mit ihrer Vielzahl unterschiedlicher, oft komplex ineinander geschachtelter Tags. Deshalb kann auch hier u.a. das Erstellungsdatum einzelner Blogbeiträge relativ einfach extrahiert werden. Aus diesem Grund ist es Blogsuchmaschinen wie z.B: „Google Blog Search“ oder „Ask.com Blog Search“ möglich, zusätzlich eine Sortierung nach Datum vorzunehmen bzw. es dem Nutzer zu gestatten, Datumsbereiche mit einer hohen Genauigkeit zu durchsuchen. Die folgende Abbildung zeigt diese Optionen auf der Trefferseite von „Google Blog Search“.

Zum Seitenanfang

Abb. 1: Google Blog Search

Festzuhalten bleibt: News- und Blogsuchmaschinen bieten also nicht nur den Zugriff auf einen Teilbestand des Web, dem eine besonders hohe Aktualität zugeschrieben wird, sondern erlauben zugleich strukturiertere Anfragen als universell ausgerichtete Websuchmaschinen.“ [1, S. 32]

Zum Seitenanfang

 

Wissenschaftssuchmaschinen

„Wissenschaftssuchmaschinen zielen darauf, wissenschaftliche Texte systematisch zu erschließen. Ähnlich Nachrichtensuchdiensten weisen Wissenschaftssuchmaschinen oftmals einen hybriden Index auf. D.h. der Datenbestand dieser Dienste besteht zum einen aus einem Subset des Webindex, der z. B. aufgrund von Dokument- und/oder Domaintyp sowie anderen Kriterien als wissenschaftlich eingestuft wird, zum anderen werden z. T. auch Inhalte von Verlagspartnern in den Index eingespeist.

Wissenschaftssuchmaschinen können als Mischform einer Volltextsuchmaschine (Webdokumente) und Referenzdatenbank betrachtet werden, die Sekundärinformationen zu Veröffentlichungen, teilweise auch die korrespondierende Volltexte, verfügbar macht. Damit ermöglichen Wissenschaftssuchmaschinen zumindest teilweise auch den Zugriff auf nicht-indexierbare Wissensbestände des Deep Web.

Der Volltextzugriff ist je nach erfasster Quelle z. T. kostenpflichtig bzw. nur nach einem Login möglich. Auch wenn die jeweiligen Standardsuchmasken von Wissenschaftssuchmaschinen zunächst häufig wenig Unterschiede zu denen von Universalsuchmaschinen zeigen, versuchen wissenschaftliche Suchmaschinen strukturierte Anfrageoptionen bereitzustellen. (…) Hier [ist] vor allem die Suche nach Autoren relevant. Des Weiteren werden z. B. in Google Scholar auch teilweise Textzitate analysiert und ähnlich der Websuche eine Möglichkeit zur Zitationssuche angeboten. Folgende Abbildung der „Advanced Search“ der Wissenschaftssuchmaschine Scirus zeigt das Bemühen, ähnlich Fachdatenbanken über vielfältige Optionen zur Suchraumeingrenzung präzise Suchanfragen zu ermöglichen." [1, S. 33ff.]

Zum Seitenanfang

Abb. 2: Suchoptionen in Scirus.com [1, S. 35]

Zum Seitenanfang

"Wissenschaftsuchmaschinen stellen einen interessanten Ansatz dar, die Suche nach wissenschaftlichen Dokumenten in Form von Websuchmaschinen umzusetzen. Die Tauglichkeit für die Zielgruppe ist derzeit aber deutlich eingeschränkt. Die Suchoptionen sind gerade im Vergleich zu Fachdatenbanken bzw. den Rechercheoptionen bei Online-Hosts eher marginal. Insbesondere ist es nur begrenzt möglich, Suchanfragen weiter zu verarbeiten bzw. mit Hilfe einer Suchhistorie unterschiedliche Anfragen komplex miteinander zu verknüpfen.

Auch hinsichtlich der Abdeckung stellen Wissenschaftssuchmaschinen derzeit keine Alternative zu bibliografischen Datenbanken dar. Wissenschaftssuchmaschinen eignen sich deshalb für eher explorative Kontexte, bei denen die Vollständigkeit und Genauigkeit der Suche von untergeordneter Bedeutung ist – beides ist typischerweise bei der Suche nach wissenschaftlicher Literatur nicht der Fall. Ebenso wie Websuchmaschinen stellen sie auch eine Möglichkeit dar, um schnell und kostengünstig an die Volltexte wissenschaftlicher Artikel zu gelangen. Als Alternative zu den thematisch unspezifischen Wissenschaftssuchmaschinen wie Google Scholar bietet sich im deutschsprachigen Raum das von den überregionalen Fachinformationseinrichtungen und wissenschaftlichen Bibliotheken getragene Wissenschaftsportal Vascoda an. Dort können unter einer einheitlichen Oberfläche wahlweise fachspezifisch oder interdisziplinär Inhalte gesucht werden.

Der Einsatz moderner Suchmaschinentechnologie sowohl bei Vascoda selbst als auch bei den Partnern erlaubt eine strukturierte Suche über eine Vielzahl verschiedenster Datenbestände, wie Fachdatenbanken, Bibliothekskataloge und Internetquellen. Kennt ein informationssuchender Wissenschaftler das disziplinäre Ziel, so kann er aber auch direkt zu einem der in den letzten Jahren entstandenen Fachportale oder zu einer der virtuellen Fachbibliotheken in Deutschland verzweigen. 
Als meistgenutzte Portale gelten die virtuelle Fachbibliothek Medpilot zum Themengebiet Medizin und das Fachportal Pädagogik, welches das fachwissenschaftliche Pendant zu dem weiter oben genannten Deutschen Bildungsserver ist.“[1, S. 33]

Zum Seitenanfang

Online-Datenbanken

„Die Überschrift Online-Datenbanken steht für eine Vielzahl von Suchdiensten, die thematisch oder dokumenttypbezogen abgegrenzte Wissensobjekte erschließen. Beispiele solcher Datenbanken stellen etwa Literatur-, Fachinformations-, Reise-, Job-, Event-, Film- und Produktsuchdienste dar. Innerhalb der jeweiligen Datenbank werden die einzelnen Objekte durch eine Vielzahl von Feldern kategorisiert. Dabei werden z.T. semantisch eindeutige Kriterien (Postleitzahl, Preis, Gewicht, Größe) mit Feldern kombiniert, in denen eine textuelle Beschreibung eingegeben werden kann.

Folgende Abbildung veranschaulicht eine solche Struktur anhand der von Google vorgegebenen Kategorien für die Produktsuche. Je nach Struktur können Suchanfragen und -ergebnisse nach den erfassten Kategorien selektiert werden. Die Ergebnissortierung lässt sich zum einen über die Einträge und Werte in den formalen Kategorien vornehmen, zum anderen ist es möglich, in den vorhandenen Textfeldern termbasierte Abgleichsverfahren zu nutzen. Schließlich können zusätzlich auch dokumentexterne Informationen (populärste, meistverkaufte, bestbewertete Produkte) für die Spezifikation der Ergebnisse herangezogen werden.

Online-Datenbanken bieten also für und in den jeweiligen Domänen spezifisch zugeschnittene Suchfunktionen, die eine präzise Suche gestatten. Die Vollständigkeit des Ergebnisses ist dabei von der Abdeckung des jeweiligen Anbieters abhängig. Oft erschließen derartige Datenbanken Wissensbestände des Deep Web, die durch Websuchmaschinen nicht bereitgestellt werden, da deren Suchroboter i.d.R. keinen Zugriff darauf haben und auch nur unzureichend in der Lage sind, die jeweilige Objektstruktur zu erfassen und recherchierbar zu machen. Die Inhalte der jeweiligen Datenbank werden oftmals von speziellen Anbietern maschinell und manuell zusammengestellt. Häufig ist ein Eintrag in eine derartige Datenbank auch kostenpflichtig.

Mit Google Base und Diensten anderer Anbieter, z. B. Freebase, existieren Ansätze, die dahin zielen, eine Vielzahl unterschiedlicher Produkte, Dienstleistungen, Publikationen usw. hochgradig strukturiert in einem Websuchsystem zusammenzuführen. Dabei werden die Daten von Nutzern bereitgestellt bzw. eingetragen. Sofern sich diese Ansätze in den nächsten Jahren etablieren, ist zu erwarten, dass Websuchdienste deutlich strukturiertere und damit genauere Anfrageoptionen ermöglichen, als es bislang der Fall ist.“ [1, S. 36]

Zum Seitenanfang

(Multi)Mediasuchdienste

„Standen bislang Textobjekte bzw. die textbasierte Repräsentation von Wissensobjekten im Fokus, so ist festzuhalten, dass sich die Suche nach (bewegten) Bildern und gesprochenem Text bzw. Musik zwar nach wie vor zum Großteil auf objektbeschreibende Texte bzw. erfasste Metadaten stützt, zunehmend mehr aber darauf hinzielt, die Inhalte der Bilder, Filme, Lieder usw. selbst zu berücksichtigen. Die simpelste Form eines Multimediasuchdienstes stellen (…) Tagging Communities wie z.B. Flickr und YouTube dar. In diesen Diensten werden Bilder bzw. Videos primär über die von Nutzern eingetragenen bzw. erzeugten Schlagwörter und Metadaten erschlossen.

Suchmaschinen sind in der Lage, neben den in Webdokumente eingetragenen Objekttiteln bzw. alternativen Textbezeichnungen sowie Metainformationen (z.B. Dateityp und Dateigröße) auch Kontextinformationen in Form von Termen, welche die jeweiligen Objekte umgeben oder in Form von Links auf diese verweisen, auszuwerten. Darüber hinaus soll die Google-Bildsuche beispielsweise eine Gesichtserkennungssoftware nutzen, die es gestattet, die Bildersuche auf Gesichter einzuschränken. Die Entwicklung derartiger Technologien steht zwar noch am Anfang, schreitet aber in einem schnellen Tempo voran.“ [1, S. 38]

Zum Seitenanfang

Einsatz von Visualisierungskonzepten

"Aktuell kann auf dem Suchdienstemarkt ein steigendes Angebot an Systemen beobachtet werden, die mit spezifischen Visualisierungstechniken experimentieren oder diese schon standardmäßig einsetzen. Die Idee der Informationsvisualisierung im Internet ist dabei keineswegs neu. Schon unmittelbar nach dem großen Durchbruch des World Wide Web Mitte der 1990er Jahre wurden diverse Ansätze erarbeitet, wie man über spezifische graphische Darstellungen bzw. Visualisierung Informationsräume so gestalten kann, dass diese vom Benutzer intuitiver und schneller exploriert werden können. Die zugehörigen Konzepte reichten von einfachen Graphen zur Darstellung der Verlinkung innerhalb von Webseiten bis hin zu Virtuellen Welten, bei denen man versucht, Inhalte auf dreidimensionale Räume abzubilden.

Der große Durchbruch blieb jedoch weitgehend aus, die Ideen scheiterten an zu komplexen Technologien und Darstellungen, die zuerst von Anwendern erlernt werden mussten, letztendlich aber dennoch die erhofften Mehrwerte vermissen ließen. Die weiterhin stetig zunehmende Menge an Formen und Inhalten sowie neue technologische Möglichkeiten ließen die Entwicklungen allerdings nicht ruhen, so dass mittlerweile sowohl bekannte als auch ganz neue Visualisierungskonzepte angeboten werden, die im Gegensatz zu vielen früheren Konzepten nicht in spezifischen Umgebungen angewandt werden müssen, sondern im Realbetrieb auf entsprechenden Webseiten ausprobiert werden können. Dies führt zunächst einmal zu einer größeren Verbreitung, viel wichtiger aber dazu, dass die Benutzerakzeptanz jetzt verstärkt in Weiterentwicklungen und Verbesserungen einbezogen werden kann.

Die aktuellen Einsatzgebiete von Visualisierungen bei Suchmaschinen sind zwar vielfältig, am häufigsten findet man diese jedoch bei der Ergebnisdarstellung. Sowohl die Trefferzahlen als auch die Heterogenität der Treffer sind so hoch, dass ein breiteres intellektuelles Sichten und Auswerten der Ergebnisse auf Nutzerseite bereits bei kleineren Ergebnismengen nicht mehr umsetzbar ist. Der Suchdienst Kartoo bspw. versucht dieser Problematik zu entgegnen, indem eine spezifische Darstellung der berechneten Relevanz und die Relationen zwischen den Trefferdokumenten in einer Art topographischen Landkarte abgebildet werden. Andere Konzepte wie z.B. Grokker stützen sich nicht nur auf die Visualisierung alleine, sondern versuchen den Informationsraum auf Basis von semantisch-lexikalischen Algorithmen zuerst zu strukturieren (im Beispiel über Clustering) und wenden anschließend darauf basierend Visualisierungsformen an, um dies den Benutzern geeignet zu vermitteln.

Visualisierungen bei Suchdiensten findet man ferner auch bei der Suchanfragenformulierung bzw. zu deren Verbesserung oder für spezifische Inhaltsformen wie z.B. zeitbezogene oder geographische Bezugspunkte. Der Mehrwert bei der Visualisierung geographischer Bezugspunkte liegt auf der Hand: Weist eine Suchanfrage entsprechende Bezüge wie Firmen-, Orts-, Straßennamen oder gar exakte Adressen auf, lassen sich nicht nur entsprechende Positionen auf Landkarten zur besseren Übersicht darstellen, sondern es können auch interessante Objekte in der Umgebung (z.B. Hotels, Restaurants, Haltestationen) eingeblendet oder zusätzliche Dienste wie eine Routenberechnung angeboten werden. Die Umsetzung dieser Art Geovisualisierung bei Suchdiensten wie z.B. Google Maps, setzt entweder die Verwendung von direkten Geobezugspunkten in einer Suchanfrage (z.B. Orts-/Straßennamen) voraus oder basiert auf dem einfachen Abgleich mit Branchendatenbanken (z.B. bei der Suche nach „Pizzeria“), um entsprechende Bezugspunkte zu einer Suchanfrage zu generieren.

Viel interessantere Ansätze, bei denen mittels „intelligenter“ Verfahren geographische Zusammenhänge bei Ergebnismengen eruiert und dargestellt werden könnten (wie z.B. bei einer Anfrage nach „Sehenswürdigkeiten in Berlin“), gibt es bei den heutigen Suchdiensten allerdings noch nicht. Es ist festzuhalten, dass Lösungen auf diesem Gebiet nach wie vor nicht ausgereift sind. Zu hoch ist noch der Anspruch an entsprechende Konzepte, eine intuitive Bedienbarkeit oder zumindest einen geringen Lernaufwand zu gewährleisten und gleichzeitig eindeutige Mehrwerte gegenüber den heutigen textlastigen Darstellungsformen zu bieten." [1, S. 38ff]

Weitere Spezialsuchdienste sind im Kapitel Suchdienste zu finden.

Quellen

[1] Griesbaum, J. / Bekavac, B. / Rittberger, M. (2008): Typologie der Suchdienste im Internet. In: Dirk Lewandowski (Hrsg.), Handbuch Internet-Suchmaschinen – Nutzerorientierung in Wissenschaft und Praxis. Heidelberg: Akademische Verlagsgesellschaft.


Zum Seitenanfang

Zurück   Weiter