Grundlagen

Wissenschaftliche Suchmaschinen erfassen nur ausgewählte Bereiche des Web. Das geschieht durch so genanntes focused crawling: die Suchmaschinen sammeln ihre Daten auf der Basis von white lists oder seed lists. Dies sind Listen von Webservern, die für den Aufbau des spezifischen Datenbestandes berücksichtigt werden [5]. Durch diese Vorauswahl wird bereits eine Qualitätskontrolle durchgeführt und oft auch ein thematischer Fokus festgelegt.

Für die technische Umsetzung kommen verschiedene Ansätze in Betracht, wobei die Wahl einer bestimmten Technologie unter anderem davon abhängig ist, welche Bestände über die Suchmaschine durchsuchbar gemacht werden sollen. Dabei kann zwischen einer Metasuche und einer föderierten Suche unterschieden werden. Im Unterschied zur Metasuche, bei der eine Suchanfrage an mehrere andere Suchmaschinen weitergegeben wird, werden bei der föderierten Suche verschiedene Indizes miteinander kombiniert.

Bei der föderierten Suche erfolgt keine Weiterleitung der Suchanfragen an verschiedene Systeme. Die nachfolgende Abbildung zeigt, dass die durchsuchbaren Informationen bereits im Voraus in einem einzigen Repository abgelegt werden. Es erfolgt also bereits vor der Suchanfrage eines Anwenders eine Datenaufbereitung, indem die Bestände unterschiedlicher Zielanbieter zusammengeführt werden.

Abb. 1: Gegenüberstellung von Metasuche und föderierter Suche
Abb. 1: Gegenüberstellung von Metasuche und föderierter Suche

 

Auch wenn aus Sicht der Endanwender die Metasuche und die föderierte Suche relativ ähnlich erscheinen, da beide Ansätze es ermöglichen, über eine einzelne Benutzerschnittstelle verschiedene Ressourcen zu durchsuchen, so unterscheiden sie sich doch in einigen Aspekten. So ermöglicht die vorherige Datenaufbereitung in föderierten Suchsystemen, neue Such- und Ranking-Algorithmen zum Einsatz zu bringen. Je nach Anwendungskontext kann ein Ranking-Algorithmus für die Darstellung der Ergebnislisten berücksichtigen wie oft ein Artikel zitiert wurde, wie viele Artikel ein bestimmter Autor bereits publiziert hat oder auch wie häufig ein bestimmtes Objekt bereits ausgeliehen wurde [9]. Eine Metasuche hingegen funktioniert nur hinreichend gut, wenn alle abzufragenden Suchmaschinen erreichbar und schnell genug sind. Dieser Ansatz ist daher bezüglich Skalierbarkeit gewissen Grenzen unterworfen.

Wissenschaftliche Suchmaschinen arbeiten mit einem Index, welcher durch fortlaufendes Harvesting aufgebaut wird: Beim Absuchen der bevorzugten Server im Internet werden von dort lokale Kopien von Dokumenten bzw. daraus gebildete Indizes „geerntet“ und auf einem Server vorgehalten, auf dem dann die entsprechende Suchmaschinentechnologie eingesetzt wird.

Im Unterschied zum einfachen Web-Crawling, das Daten als reinen Text einsammelt, bezeichnet Harvesting das Sammeln von strukturierten Daten aus Dokumentenservern, auf der Basis von entsprechenden Abfrageprotokollen. Diese formulieren einen Kommunikationsstandard, über den Datenanbieter (z. B. Dokumentenserver) und Dienstleister (z. B. Suchmaschinen) Daten abfragen und übertragen können. Dadurch ermöglichen sie die Interoperabilität von Daten und sorgen für eine grössere Verbreitung im Internet.