Suchmaschinen-Evaluation
Wie in den vorangegangen Abschnitten dargestellt, existieren im Internet eine Vielzahl von Suchmaschinen mit den unterschiedlichsten Eigenschaften und Funktionen. Vermutlich hat jeder Benutzer eigene Kriterien für die Auswahl eines geeigneten Suchdienstes, oder nutzt immer nur die einzige ihm bekannte, z.B. Google.
Für diesen Nutzer ist eine Suchmaschinenevaluation nicht nützlich. In der Informationswissenschaft wird aber immer wieder versucht, die Qualität einer Internetsuchmaschine fundiert einzuschätzen. Immer wieder tauchen mögliche Konkurrenten zu Google auf. Da stellt sich die Frage, ob das neue Produkt tatsächlich besser ist und sich ein Umstieg allenfalls lohnen würde. Zudem zeigt die Suchmaschinenevaluation allfällige Verbesserungspotenziale auf.
Um eine Suchmaschine umfassend beurteilen zu können, reicht es nicht, die „Qualität“ der Trefferliste zu betrachten. Lewandowski und Höchstötter schlagen vier Dimensionen zum Vergleich vor:
- die Index-Qualität,
- die Qualität der Treffer,
- die Qualität der Recherchemöglichkeiten und
- die Usability.
Weil dieser Ansatz weg von einer rein mathematischen Erhebung geht und den Nutzer mehr in den Mittelpunkt stellt, werden diese 4 Punkte in der Folge behandelt. [8]
Indexqualität
Die Relevanz der Ergebnisse hängt natürlich auch von der geschickten Formulierung der Suchanfrage ab. Aber selbst bei gleicher Fragestellung treten Unterschiede zwischen den Suchmaschinen auf. Die Gründe hierfür können vielfältig sein: einen grossen Einfluss hat sicher der unterschiedlich gute Ranking-Algorithmus, doch auch der Aufbau und die Vollständigkeit (Abdeckung des Internets) und Aktualität der Indexierung sind entscheidend. (mehr dazu im Kapitel Aktualisierung und Indexierung)
Treffermenge
Sicher ist der Umfang einer Trefferliste auf eine Anfrage noch kein Beweis für die Brauchbarkeit des Ergebnisses. Immerhin steigt mit zunehmender Anzahl der Treffer auch die Wahrscheinlichkeit, dass alle relevanten Webseiten enthalten sind. Die Grösse der Liste kann somit als erstes Indiz für ein gutes Anfrageergebnis gewertet werden.
Es hat sich herausgestellt, dass die meisten Suchmaschinennutzer maximal die ersten drei Seiten der Trefferliste ansehen. Gemäss einer Studie aus dem Jahr 2006 sehen sich 93% sogar nur die erste Seite an und die Hälfte der Testpersonen klickte auf den ersten Treffer. [10] Deshalb ist es nicht nur wichtig, dass die Suchmaschine möglichst viele relevante Webseiten findet, sondern, dass diese Treffer auch möglichst weit oben auf der Trefferliste stehen. Eine Webseite, die genau auf eine Suchanfrage passt, von der Suchmaschine auch gefunden wurde, aber Platz 200'367 der Trefferliste belegt, wird wohl kaum je angesehen.
Im Internet bestehen mehrere Dienste, die für zwei Suchmaschinen die Anzahl Treffer vergleichen: Langreiter (Yahoo vs. Google) und Thumbshots.
Etwas ausgefeiltere Anwendungen zeigen die Anzahl der Überschneidungen in den beiden Trefferlisten an: SearchCrystal.
Retrieval: Qualität der Treffer
Wie schon erwähnt, ist nicht die Anzahl, sondern die Relevanz der Ergebnisse entscheidend. Zum einen sollten alle Treffer relevant (Precision: hoch) sein, zum anderen sollten alle relevanten Webseiten in der Trefferliste enthalten (Recall: hoch) sein.
Im Internet, wo der Dokumentenraum fast unbegrenzt ist, ist die Evaluation des Recalls, also der Vollständigkeit nicht möglich. Deshalb fokussieren die meisten Studien im Bereich der Websuchdienste auf die Precision.
Um die Retrievaleffektivität von verschiedenen Suchdiensten zu messen und zu vergleichen, gibt es zwei Methoden:
Makroprecision
"Die Retrievaleffektivität der Suchmaschinen bei den einzelnen Suchanfragen (Makropresicion) beschreibt, wie effektiv die Suchmaschinen Informationsbedürfnisse befriedigen“ [3]. Bei diesem Mass wird verglichen, welche Suchmaschine im Vergleich zur anderen mehr relevante Treffer liefert. Dementsprechend werden Rangplätze verteilt.
Die meisten Suchanfragen geben eine zu grosse Treffermenge aus und deshalb wird die Relevanz bloss bis zu einem bestimmten Cut-Off-Wert gemessen. Eine sinnvolle Beschränkung können die Treffer der ersten Seite oder der ersten drei Seiten sein. Das entspricht auch dem Nutzerverhalten.[10]
Die Betrachtung von Makroprecision ist rein quantitativer Art. Es lassen sich keine qualitativen Aussagen darüber treffen, sondern es wird bloss die Anzahl relevanter Treffer verglichen. Griesbaum et al. [3] drücken das so aus: Es ist „ein erheblicher Unterschied, ob eine Suchmaschine eine Suchanfrage, wenn auch eher schlecht, beantworten kann oder nicht.“
Das Messen der Qualität der einzelnen Treffer bzw. der einzelnen Suchanfragen ist ein Problem und eine Lösung ist sehr schwierig zu finden, da alle Bewertungen eine gewisse Subjektivität besitzen.
Mikroprecision
Bei der Mikromethode wird die Positionierung der einzelnen relevanten (inkl. verweisenden) Treffer untersucht. Damit wird eine Aussage über die Qualität des Rankings gewonnen.
Eine aktuelle Studie zur Qualität der Treffer wurde von Lewandowski 2007/2008 durchgeführt. Mit 40 studentischen Juroren wurden die Suchdienste Google, Yahoo!, MSN, Ask.com und Seekport untersucht. Yahoo! Erreicht 48,5% relevante Treffer, Google 47,9%, der Unterschied sei nicht als signifikant zu betrachten. Die Studie befasste sich insbesondere mit den Trefferbeschreibungen. Da wurden von Google 60,2% der Beschreibungen als zu relevanten Resultaten führend bezeichnet (Yahoo!: 52,8%). Bei der Frage, ob alle fünf Suchdienste fähig seien, die Suchanfragen mit zumindest einem relevanten Treffer zu beantworten, schnitten nur Google und Yahoo! positiv ab („Ask.com did not answer one query at all, and MSN and Seekport did not answer three queries from our set“ [6]).
Interessante Ergebnisse ergaben auch die Messung der Mikro- und Makroprecision. Bei ersterer sind wiederum Google und Yahoo! führend mit Werten um 0.7 für die ersten drei Treffer.
Yahoo! schaffte es 16 Suchanfragen am besten zu beantworten, die Spitzenpositionen teilen sich Google und Yahoo!. Lewandowski stellt fest: „ When looking at the complete result sets (20 results per engine), we see that no single engine is able to answer all queries the best.“[6].
![Abb. 1: Top 29 Mikroprecision [6, S. 927]](typo3temp/pics/b1330d1b2f.png)
- Abb. 1: Top 29 Mikroprecision [6, S. 927]
Nachdem diese Studie also gezeigt hatte, dass zwischen Google und Yahoo! kein so grosser Unterschied bezüglich der Trefferqualität besteht, stellt sich die Frage, warum Google trotzdem so grosse Marktanteile bei der Suche im Internet hat. Die Studie schreibt dazu, dass es unter anderem daran liegen könnte, dass Google „by far the largest amount (and the largest ratio) of relevant result descriptions“ liefert [6].
Lewandowski [5] beschreibt noch einige weitere Masse zur Suchmaschinen-Evaluierung, die allerdings noch im experimentellen Stadium stehen. Es sind dies...
- Median Measure,
- Average Distance Measure und Importance of completeness of search results
- Importance of precision of the search to the user.
Als web-spezifische Masse werden folgende von Lewandowski beschrieben: Salience, CBC ratio, Quality of result ratio, Ability to retrieve top ranked pages und Aktualitätsmasse.
Ranking
Das Ranking bestimmt die Sortierung der Treffer auf der Ergebnisliste. Durch die grosse Dokumentenmenge im World Wide Web (WWW) kommt dieser Art der Vorselektion für den Nutzer eine grosse Bedeutung zu. In der Regel versucht der Suchdienst, nach Relevanz in Bezug zur Suchanfrage zu ranken. Diese Mechanismen sind sehr komplex und aus verschiedenen Gründen nicht immer offengelegt. Ein gutes Beispiel ist der Rankingalgorithmus von Google: PageRank.
Doch auch die Nutzung, die Klickaktivität auf der Zielseite oder eine kollektive Trefferbewertung sind Möglichkeiten, die Trefferliste für den Recherchierenden zu optimieren und Spam zu eliminieren.
Auch das Ranking wird bei der Evaluation von Suchmaschinen bewertet. Die Methode der Top10 MeanAverage Precision konzentriert sich auf die Qualität des Rankings. Der entsprechende Wert wird aus dem Anteil relevanter Treffer an der Gesamtmenge von Treffern für jede Trefferposition von 1-10 berechnet. Dabei wird der Durchschnitt sämtlicher Suchanfragen errechnet. [3]
Zum Seitenanfang
Aktualität
Es ist unmittelbar einleuchtend, dass die Relevanz der Treffermenge auch mit der Aktualität des Index einer Suchmaschine zusammenhängt. Nur wenn der aktuelle Inhalt einer Seite erfasst ist, kann man entscheiden ob sie relevante Information enthält. Ausserdem dürfte auch der Anteil toter Links geringer sein, je häufiger Webseiten von den Spidern der Suchmaschinen besucht werden.
Eine Studie von Lewandowski aus dem Jahr 2005 hat „über einen Zeitraum von sechs Wochen (Februar/März 2005) 38 deutschsprachige Webseiten, die täglich aktualisiert werden, untersucht. Neben großen Nachrichtenseiten wurden regionale Newsportale, wissenschaftsorientierte Seiten und Special-Interest-Seiten ausgewählt“ [4].
Das wichtigste Resultat war, dass Google die meisten Seiten tagesaktuell indexiert (83%). MSN erreicht 48%, Yahoo! 42% der 1558 Datenpunkten. Eine weitere Untersuchung ergab, dass Google eine durchschnittliche Frequenz der Aktualisierung von 3.1 Tagen hat. Bei MSN sind es 3,5 und bei Yahoo! 9,8 Tage. [4]
Eine weiterführende Studie des selben Autors untersuchte die Aktualität des Index von mehreren Suchmaschinen (Google, Yahoo! und MSN Live Search) während der Jahre 2005-2007. Die Studie wurde anhand von 70 Seiten gemacht, die z. T. regelmässig, z.T. unregelmässig verändert wurden. Diese Studie fand heraus, dass Google im Jahr 2005 noch über 80% der täglich aktualisierten Seiten auch täglich frisch anbietet. In den Folgejahren nimmt dieser Anteil massiv ab (knapp 25%). Und auch die entsprechenden Anteile bei MSN sanken. Nur Yahoo! konnte sich knapp steigern und liegt jetzt bei knapp 50%. [7]
Weiters stellte Lewandowski fest, dass Google offenbar in 68% der Fälle dem Nutzer eine zwei Tage alte Version im Index anbietet (immerhin). Zu Recht stellt er fest: „When the engine needs two days to bring the crawled page into the searchable index, there is no need to crawl the page every day—just to get a two-day-old copy every day“ [7].
Gemäss Lewandowski ist Google im Gegensatz zu Microsoft nicht fähig, seinen Index innerhalb eines Monats zu aktualisieren, da im Jahr 2007 noch Seiten gefunden wurden, die bis zu 175 Tage alt waren. Bei Microsoft (MSN) sieht es so aus, als ob dies möglich sei. [7]
Recherchemöglichkeiten
Der durchschnittliche Nutzer verhält sich etwa so:“Internet users who type two words for on a search engine query account for 31.9 percent of searches worldwide. Three-word phrases are used for 27 percent of searches. A single word accounts for 15.2 percent of queries, and four words are used for 14.8 percent of searches“ [1]. Diese Art der Recherche führt natürlich dazu, dass nicht das bestmögliche Resultat aus der Suchmaschine herausgeholt wird. Für speziellere oder tiefere Recherchen müssen aber neben der Einbox-Suche noch weitere Recherchetools zur Verfügung stehen. Beispielsweise die Möglichkeit einer erweiterten Suche, der Einsatz von Boole’schen Operatoren (AND, OR, NOT), Phrasensuche, Trunkierung, Abstandsoperatoren, Gewichtung der einzelnen Suchbegriffe oder sinnvolle Möglichkeiten zur Suchraumeingrenzung. (Mehr Informationen dazu im Kapitel Operatoren & Methoden).
Wie vielfältig und effizient der Nutzer in seiner Suche unterstützt wird, und ob diese Suchmethoden auch zuverlässig funktionieren, kann wichtige Hinweise auf die Qualität einer Suchmaschine geben.
Usability
Die Dimension der Usability von Suchdiensten wird gerne etwas vergessen.
Grundsätzlich haben Suchdienste die allgemeinen Usability-Anforderungen an Webseiten zu erfüllen. Da ein Suchdienst aber eine aktive Interaktion mit dem Nutzer eingeht, müssen hier weitere Punkte beachtet werden.
Suchmaschinennutzer sind meist nur gelegentliche Nutzer. Umso wichtiger ist es, dass ein Suchdienst transparent über seinen Zweck und Umfang orientiert. [11] Eine wichtige Usability-Norm ist die DIN EN ISO 9241 – 10. Sie legt sieben Grundsätze der Dialoggestaltung fest: Aufgabenangemessenheit, Selbstbeschreibungsfähigkeit, Erwartungskonformität, Fehlertoleranz, Steuerbarkeit, Individualisierbarkeit und Lernförderlichkeit. [12]
Für Suchmaschinen ist besonders der Punkt der Erwartungskonformität sehr wichtig. Schulz nennt hierfür den Bedarf für einen „(erwartungskonformen) Button mit einem unmissverständlichen Label: z.B. suchen, finden“ [11].
Fauldrath/Kunisch formulieren sehr treffend: „dass auch für Suchmaschinen das bekannte KISS-Prinzip (Keep it small and simple ) gilt. Der Nutzer will ein Problem lösen und nicht durch das Interface ein zusätzliches erhalten“ [2]. Der durchschnittliche Suchmaschinennutzer darf nicht gezwungen werden, irgendwelche Operatoren benützen zu müssen. Dies kann ihm abgenommen werden, indem „Eingaben ohne Operatoren im Sinne einer größtmöglichen Relevanz interpretiert werden (z.B. die Eingabe wird zunächst als Phrase interpretiert, dann als AND-Verbindung, dann als OR-Verbindung)" [11].
Die Suchmaschine soll nachsichtig sein und allfällige Tippfehler erkennen und korrigieren sowie bei zu vielen oder keinen Treffern sinnvolle und annehmbare Hilfestellung bieten (Filter, Suchtipps, Möglichkeit für erneute Suche, etc.) [11].
Bei der Trefferliste ist es wichtig, dass diese schnell aufgebaut wird und angibt, wieviele Treffer gefunden worden sind.
„Der Siegeszug von Google beruht auf der leichten Bedienbarkeit bei relativ guter Ergebnisqualität. Google hat De-Facto-Standards gesetzt und die Erwartungen von Kunden nachhaltig geprägt. Kunden erwarten, dass eine Suchmaschine sich wie Google darstellt und auch so verhält: ein einfaches Eingabefeld - 1 Button "Suche" - ein relevanzsortierte Ergebnisliste auf einer neuen Seite“ [11].
Quellen
[1] Burns, Enid (2007): Most Searchers Have Two Words for Google. Online unter http://searchenginewatch.com/3627479
[2] Fauldrath, Jens / Kunisch, Arne (2005). Kooperative Evaluation der Usability von Suchmaschineninterfaces. In: Information: Wissenschaft und Praxis, Jahrgang 56 (2005), Ausgabe 1 S. 21-28. Online unter: www.fauldrath.net/Kooperative-Evaluation-der-Usability-von-Suchmaschineninterfaces/
[3] Griesbaum, Joachim / Rittberger, Marc / Bekavac, Bernard (2002): Deutsche Suchmaschinen im Vergleich. Alta.Vista.de, Fireball.de, Google.de und Lycos.de.
[4] Lewandowski, Dirk (2006). Aktualität als erfolgskritischer Faktor bei Suchmaschinen. In: Information. Wissenschaft & Praxis. 57(2006)3, 141-148. Online unter: http://www.durchdenken.de/lewandowski/doc/Aktualitaet_IWP.pdf
[5] Lewandowski, Dirk (2007): „Mit welchen Kennzahlen lässt sich die Qualität von Suchmaschinen messen?” In: Machill, M arcel und Beiler, Markus (Hrsg.): Die Macht der Suchmaschinen - The Power of Search Engines. Köln: Halem, S. 243-258.
[6] Lewandowski, Dirk (2008a). The retrieval effectivenes of web search engines: considering results descriptions. In: Journal of Doumentation, Vol. 64, Nr. 6, 2008, S. 915-93.
[7] Lewandowski, Dirk (2008b): A three-year study on the freshness of Web search engine databases. Zu erscheinen in: Journal of Information Science. [Preprint] Online unter: http://www.durchdenken.de/lewandowski/doc/JIS2008_preprint.pdf
[8] Lewandowski, D. / Höchstötter, N. (2008). Web Searching. A Quality Measurement Perspecitve. In: Spink, Amanda & Zimmer, Michael (eds.). Web Search. Multidisciplinary Perspectives. Springer Series in Information Science and Knowledge Management 14. Berlin: Springe.
[9] Machill, Marcel / Beiler, Markus / Zenker, Martin (2008). Suchmaschinenforschung: Überblick und Systematisierung eines interdisziplinären Forschungsfeldes. In: Mattern, Friedemann (Hrsg.): Wie arbeiten die Suchmaschinen von morgen? Informationstechnische, politische und ökonomische Perspektiven. Stuttgart: arcatech, S. 23-58.
[10] Nielsen, Jakob / Loranger, Hoa (2006). Prioritizing Web Usability. Berkeley: New Riders.
[11] Schulz, Ursula (2007). [Web Usability] Kriterien für Suchmaschinen. Online unter www.bui.haw-hamburg.de/pers/ursula.schulz/webusability/suchma.html
[12] Wirth, Thomas (2005). Die DIN EN ISO 9241 – 10. Online unter http://www.kommdesign.de/texte/din.htm
Zum Seitenanfang





