Suchmaschinen-Evaluation

Im Internet existiert eine Vielzahl von Suchmaschinen mit den unterschiedlichsten Eigenschaften und Funktionen. Vermutlich hat jeder Benutzer eigene Kriterien für die Auswahl eines geeigneten Suchdienstes, oder nutzt immer nur die einzige ihm bekannte, z.B. Google. In den folgenden Abschnitten lernen Sie Kriterien kennen, anhand derer es Ihnen möglich wird, die verschiedensten Suchmaschinen hinsichtlich ihrer Qualität umfassend zu beurteilen.

Vier Dimensionen zum Suchmaschinenvergleich

Index-Qualität

Die Relevanz der Ergebnisse hängt natürlich auch von der geschickten Formulierung der Suchanfrage ab. Aber selbst bei gleicher Fragestellung treten Unterschiede zwischen den Suchmaschinen auf. Die Gründe hierfür können vielfältig sein: einen grossen Einfluss hat sicher der unterschiedlich gute Ranking-Algorithmus, doch auch der Aufbau, die Vollständigkeit (Abdeckung des Internets) und Aktualität der Indexierung sind entscheidend.

Treffermenge
Sicher ist der Umfang einer Trefferliste auf eine Anfrage noch kein Beweis für die Brauchbarkeit des Ergebnisses. Immerhin steigt mit zunehmender Anzahl der Treffer auch die Wahrscheinlichkeit, dass alle relevanten Webseiten enthalten sind. Die Grösse der Liste kann somit als erstes Indiz für ein gutes Anfrageergebnis gewertet werden.

Es hat sich herausgestellt, dass die meisten Suchmaschinennutzer maximal die ersten drei Seiten der Trefferliste ansehen. Gemäss einer Studie aus dem Jahr 2006 sehen sich 93% sogar nur die erste Seite an und die Hälfte der Testpersonen klickte auf den ersten Treffer.[5] Deshalb ist es nicht nur wichtig, dass die Suchmaschine möglichst viele relevante Webseiten findet, sondern, dass diese Treffer auch möglichst weit oben auf der Trefferliste stehen. Eine Webseite, die genau auf eine Suchanfrage passt, von der Suchmaschine auch gefunden wurde, aber Platz 200'367 der Trefferliste belegt, wird wohl kaum je angesehen.
Im Internet bestehen mehrere Dienste, die für zwei Suchmaschinen die Anzahl Treffer vergleichen: Langreiter (Yahoo vs. Google) und Thumbshots.


Zum Seitenanfang

Qualität der Treffer

Bei den gefundenen Treffern nach einer Suche ist nicht die Anzahl, sondern die Relevanz der Ergebnisse entscheidend. Zum einen sollten alle Treffer relevant (Precision: hoch) sein, zum anderen sollten alle relevanten Webseiten in der Trefferliste enthalten (Recall: hoch) sein.
Im Internet, wo der Dokumentenraum fast unbegrenzt ist, ist die Evaluation des Recalls, also der Vollständigkeit nicht möglich. Deshalb fokussieren die meisten Studien im Bereich der Websuchdienste auf die Precision.

Um die Retrievaleffektivität von verschiedenen Suchdiensten zu messen und zu vergleichen, gibt es zwei Methoden:

Makroprecision
"Die Retrievaleffektivität der Suchmaschinen bei den einzelnen Suchanfragen (Makropresicion) beschreibt, wie effektiv die Suchmaschinen Informationsbedürfnisse befriedigen“ [6]. Bei diesem Mass wird verglichen, welche Suchmaschine im Vergleich zur anderen mehr relevante Treffer liefert. Dementsprechend werden Rangplätze verteilt.

Die meisten Suchanfragen geben eine zu grosse Treffermenge aus und deshalb wird die Relevanz bloss bis zu einem bestimmten Cut-Off-Wert gemessen. Eine sinnvolle Beschränkung können die Treffer der ersten Seite oder der ersten drei Seiten sein. Das entspricht auch dem Nutzerverhalten [5].
Die Betrachtung von Makroprecision ist rein quantitativer Art. Es lassen sich keine qualitativen Aussagen darüber treffen, sondern es wird bloss die Anzahl relevanter Treffer verglichen. Griesbaum et al. [6] drücken das so aus: Es ist „ein erheblicher Unterschied, ob eine Suchmaschine eine Suchanfrage, wenn auch eher schlecht, beantworten kann oder nicht.“

Das Messen der Qualität der einzelnen Treffer bzw. der einzelnen Suchanfragen ist sehr schwierig, da alle Bewertungen eine gewisse Subjektivität besitzen.

Mikroprecision
Bei der Mikromethode wird die Positionierung der einzelnen relevanten (inkl. verweisenden) Treffer untersucht. Damit wird eine Aussage über die Qualität des Rankings gewonnen.

Eine Studie zur Qualität der Treffer wurde von Lewandowski 2007/2008 durchgeführt. Mit 40 studentischen Juroren wurden die Suchdienste Google, Yahoo!, MSN, Ask.com und Seekport untersucht. Yahoo! Erreicht 48,5% relevante Treffer, Google 47,9%, der Unterschied sei nicht als signifikant zu betrachten. Die Studie befasste sich insbesondere mit den Trefferbeschreibungen. Da wurden von Google 60,2% der Beschreibungen als zu relevanten Resultaten führend bezeichnet (Yahoo!: 52,8%). Bei der Frage, ob alle fünf Suchdienste fähig seien, die Suchanfragen mit zumindest einem relevanten Treffer zu beantworten, schnitten nur Google und Yahoo! positiv ab („Ask.com did not answer one query at all, and MSN and Seekport did not answer three queries from our set“) [7].

Interessante Ergebnisse ergaben auch die Messung der Mikro- und Makroprecision. Bei ersterer sind wiederum Google und Yahoo! führend mit Werten um 0.7 für die ersten drei Treffer.
Yahoo! schaffte es 16 Suchanfragen am besten zu beantworten, die Spitzenpositionen teilen sich Google und Yahoo!. Lewandowski stellt fest: „ When looking at the complete result sets (20 results per engine), we see that no single engine is able to answer all queries the best“ [7].

Abb. 1: Top 29 Mikroprecision [7]
Abb. 1: Top 29 Mikroprecision [7]

Nachdem diese Studie also gezeigt hatte, dass zwischen Google und Yahoo! kein so grosser Unterschied bezüglich der Trefferqualität besteht, stellt sich die Frage, warum Google trotzdem so grosse Marktanteile bei der Suche im Internet hat. Die Studie schreibt dazu, dass es unter anderem daran liegen könnte, dass Google „by far the largest amount (and the largest ratio) of relevant result descriptions“ liefert [7].

Lewandowski [8] beschreibt noch einige weitere Masse zur Suchmaschinen-Evaluierung, die allerdings noch im experimentellen Stadium stehen. Es sind dies...

  • Median Measure
  • Average Distance Measure und Importance of completeness of search results
  • Importance of precision of the search to the user.

Als web-spezifische Masse werden folgende von Lewandowski beschrieben: Salience, CBC ratio, Quality of result ratio, Ability to retrieve top ranked pages und Aktualitätsmasse.

Ranking
Das Ranking bestimmt die Sortierung der Treffer auf der Ergebnisliste. Durch die grosse Dokumentenmenge im World Wide Web (WWW) kommt dieser Art der Vorselektion für den Nutzer eine grosse Bedeutung zu. In der Regel versucht der Suchdienst, nach Relevanz in Bezug zur Suchanfrage zu ranken. Diese Mechanismen sind sehr komplex und aus verschiedenen Gründen nicht immer offengelegt. Ein gutes Beispiel ist der Rankingalgorithmus von Google: PageRank.
Doch auch die Nutzung, die Klickaktivität auf der Zielseite oder eine kollektive Trefferbewertung sind Möglichkeiten, die Trefferliste für den Recherchierenden zu optimieren und Spam zu eliminieren.

Auch das Ranking wird bei der Evaluation von Suchmaschinen bewertet. Die Methode der Top10 Mean Average Precision konzentriert sich auf die Qualität des Rankings. Der entsprechende Wert wird aus dem Anteil relevanter Treffer an der Gesamtmenge von Treffern für jede Trefferposition von 1-10 berechnet. Dabei wird der Durchschnitt sämtlicher Suchanfragen errechnet [6].

Aktualität
Es ist unmittelbar einleuchtend, dass die Relevanz der Treffermenge auch mit der Aktualität des Index einer Suchmaschine zusammenhängt. Nur wenn der aktuelle Inhalt einer Seite erfasst ist, kann man entscheiden ob sie relevante Information enthält. Ausserdem dürfte auch der Anteil toter Links geringer sein, je häufiger Webseiten von den Spidern der Suchmaschinen besucht werden.

Eine Studie von Lewandowski aus dem Jahr 2005 hat „über einen Zeitraum von sechs Wochen (Februar/März 2005) 38 deutschsprachige Webseiten, die täglich aktualisiert werden, untersucht. Neben großen Nachrichtenseiten wurden regionale Newsportale, wissenschaftsorientierte Seiten und Special-Interest-Seiten ausgewählt“ [9].

Das wichtigste Resultat war, dass Google die meisten Seiten tagesaktuell indexiert (83%). MSN erreicht 48%, Yahoo! 42% der 1558 Datenpunkten. Eine weitere Untersuchung ergab, dass Google eine durchschnittliche Frequenz der Aktualisierung von 3.1 Tagen hat. Bei MSN sind es 3,5 und bei Yahoo! 9,8 Tage [9].

Eine weiterführende Studie des selben Autors untersuchte die Aktualität des Index von mehreren Suchmaschinen (Google, Yahoo! und MSN Live Search) während der Jahre 2005-2007. Die Studie wurde anhand von 70 Seiten gemacht, die z. T. regelmässig, z.T. unregelmässig verändert wurden. Diese Studie fand heraus, dass Google im Jahr 2005 noch über 80% der täglich aktualisierten Seiten auch täglich frisch anbietet. In den Folgejahren nimmt dieser Anteil massiv ab (knapp 25%). Und auch die entsprechenden Anteile bei MSN sanken. Nur Yahoo! konnte sich etwas steigern und liegt jetzt bei knapp 50% [10].

Weiter stellte Lewandowski fest, dass Google offenbar in 68% der Fälle dem Nutzer eine zwei Tage alte Version im Index anbietet (immerhin). Zu Recht stellt er fest: „When the engine needs two days to bring the crawled page into the searchable index, there is no need to crawl the page every day—just to get a two-day-old copy every day“ [10].
Gemäss Lewandowski ist Google im Gegensatz zu Microsoft nicht fähig, seinen Index innerhalb eines Monats zu aktualisieren, da im Jahr 2007 noch Seiten gefunden wurden, die bis zu 175 Tage alt waren. Bei Microsoft (MSN) sieht es so aus, als ob dies möglich sei [10].


Zum Seitenanfang

Qualität der Recherchemöglichkeiten

Der durchschnittliche Nutzer verhält sich etwa so:“Internet users who type two words for on a search engine query account for 31.9 percent of searches worldwide. Three-word phrases are used for 27 percent of searches. A single word accounts for 15.2 percent of queries, and four words are used for 14.8 percent of searches“ [11]. Diese Art der Recherche führt natürlich dazu, dass nicht das bestmögliche Resultat aus der Suchmaschine herausgeholt wird. Für speziellere oder tiefere Recherchen müssen aber neben der Einbox-Suche noch weitere Recherchetools zur Verfügung stehen. Beispielsweise die Möglichkeit einer erweiterten Suche, der Einsatz von Boole’schen Operatoren (AND, OR, NOT), Phrasensuche, Trunkierung, Abstandsoperatoren, Gewichtung der einzelnen Suchbegriffe oder sinnvolle Möglichkeiten zur Suchraumeingrenzung. (Mehr Informationen dazu in den Kapiteln Such-Operatoren und Such-Funktionalitäten).
Wie vielfältig und effizient der Nutzer in seiner Suche unterstützt wird, und ob diese Suchmethoden auch zuverlässig funktionieren, kann wichtige Hinweise für die Qualität einer Suchmaschine geben.


Zum Seitenanfang

Usability

Die Dimension der Usability von Suchdiensten wird oft zu wenig beachtet.

Grundsätzlich haben Suchdienste die allgemeinen Usability-Anforderungen an Webseiten zu erfüllen. Da ein Suchdienst aber eine aktive Interaktion mit dem Nutzer eingeht, müssen hier weitere Punkte beachtet werden.

Suchmaschinennutzer sind meist nur gelegentliche Nutzer. Umso wichtiger ist es, dass ein Suchdienst transparent über seinen Zweck und Umfang orientiert [12]. Eine wichtige Usability-Norm ist die DIN EN ISO 9241 – 10. Sie legt sieben Grundsätze der Dialoggestaltung fest: Aufgabenangemessenheit, Selbstbeschreibungsfähigkeit, Erwartungskonformität, Fehlertoleranz, Steuerbarkeit, Individualisierbarkeit und Lernförderlichkeit [13].

Für Suchmaschinen ist besonders der Punkt der Erwartungskonformität sehr wichtig. Schulz nennt hierfür den Bedarf für einen „(erwartungskonformen) Button mit einem unmissverständlichen Label: z.B. suchen, finden“[12].
Fauldrath/Kunisch formulieren sehr treffend: „dass auch für Suchmaschinen das bekannte KISS-Prinzip (Keep it small and simple ) gilt. Der Nutzer will ein Problem lösen und nicht durch das Interface ein zusätzliches erhalten“ [14]. Der durchschnittliche Suchmaschinennutzer darf nicht gezwungen werden, irgendwelche Operatoren benützen zu müssen. Dies kann ihm abgenommen werden, indem „Eingaben ohne Operatoren im Sinne einer größtmöglichen Relevanz interpretiert werden (z.B. die Eingabe wird zunächst als Phrase interpretiert, dann als AND-Verbindung, dann als OR-Verbindung)" [12].
Die Suchmaschine soll nachsichtig sein und allfällige Tippfehler erkennen und korrigieren sowie bei zu vielen oder keinen Treffern sinnvolle und annehmbare Hilfestellung bieten (Filter, Suchtipps, Möglichkeit für erneute Suche, etc.) [5].
Bei der Trefferliste ist es wichtig, dass diese schnell aufgebaut wird und angibt, wieviele Treffer gefunden worden sind.

„Der Siegeszug von Google beruht auf der leichten Bedienbarkeit bei relativ guter Ergebnisqualität. Google hat De-Facto-Standards gesetzt und die Erwartungen von Kunden nachhaltig geprägt. Kunden erwarten, dass eine Suchmaschine sich wie Google darstellt und auch so verhält: ein einfaches Eingabefeld - 1 Button "Suche" - ein relevanzsortierte Ergebnisliste auf einer neuen Seite“ [12].


Zum Seitenanfang