FAST

Die Suchtechnologie der norwegischen Firma FAST (FAst Search and Transfer) wird von verschiedenen wissenschaftlichen Suchmaschinen wie z.B. BASE eingesetzt. Bei FAST handelt es sich um ein Spin-off der Technischen Universität Norwegen in Trondheim. 2008 übernahm Microsoft FAST, um seine Marktposition im Bereich der Enterprise Search zu stärken.

Das Produkt FAST Data Search ist eine sehr performante und skalierbare Suchmaschine, die auch für sehr grosse Infrastrukturen und Informationsmengen geeignet ist. Strukturierte Inhalte können dabei mit unstrukturierten Dokumenten in einem Index zusammengeführt werden, wobei auch Dokumente ausserhalb der eigenen Organisation indexiert werden können [14].

Die nachfolgende Beschreibung von FAST erläutert exemplarisch folgende Bestandteile bzw. Aufgaben einer Suchmaschinentechnologie:

Erfassen von Daten

Architektur

Relevanz-Ranking-Mechanismus

Suche

Web-Crawler

Datei-Traversierer

API (Application Programming Interface)

Erfassen von Daten

Die FAST-Suchmaschine erfasst Daten in mehreren Phasen:

  • Holen von Daten über Webinhalte (Web Crawler), Datenbankinhalte (Database Connector), Inhalte eines Filesystems (File Traverser) und Inhalte, die über eine Schnittstelle zur Anwendungsprogrammierung (API) zur Verfügung gestellt werden
  • Analyse und Bearbeitung der Daten durch linguistische Analysen (Entitätenextraktion, Thesaurus, Erkennung der Dokumentstruktur [HTML, XML]) sowie verschiedene Pipelines
  • Schreiben der Daten in den Index

Nachdem der Index fertiggestellt ist, können Benutzende Suchen durchführen. Die Suche in den indexierten Daten kann in mehrere Phasen zerlegt werden: Analyse von Anfragen, Abgleich der Anfragen mit der Index-Datenbank, Bearbeitung und Ausgabe der Suchergebnisse bei den Benutzenden [15].

Architektur

Die nachfolgende Abbildung zeigt die Architektur der FAST Suchmaschine. FAST ermöglicht durch das Ablegen von Daten in verschiedenen Kollektionen ein differenziertes Anbieten von Daten. Man kann zwischen der Herkunft der Daten und ihrer Verarbeitung unterscheiden. Unabhängig von der Anzahl Kollektionen hat eine Installation der Suchmaschine FAST ein einziges Indexprofil. Für ein differenziertes Anbieten von Daten muss dieses Indexprofil so universell wie möglich spezifiziert werden.

Abb. 1: Aufbau und Funktionsweise der Suchtechnologie von FAST
Abb. 1: Aufbau und Funktionsweise der Suchtechnologie von FAST

Relevanz-Ranking-Mechanismus

Wie bei anderen Suchmaschinen (z.B. Google) basiert die Relevanzbestimmung eines Dokumentes in FAST zum Teil auf der Struktur des Dokumentes (soweit vorhanden). Diese wird durch eine Abbildung verschiedener Dokumentbestandteile auf Indexfelder festgehalten. Hier ermöglicht die Suchmaschine die benutzerdefinierte Strukturbestimmung eines Dokumentes. Die Dokumentverarbeitung hängt eng mit der Spezifikation des Indexprofils zusammen: während der Verarbeitung eines Dokumentes werden die Elemente aufgefüllt, die am Ende der Verarbeitung auf Indexfelder abgebildet werden. Bleiben die für den Index definierten Elemente leer, bleiben auch die entsprechenden Indexfelder leer, wodurch ein Teil des Relevanz-Ranking-Mechanismus der FAST-Suchmaschine entfällt. Dieser Mechanismus basiert auf der Rangberechnung jedes Dokumentes, in die auch die Bewertung der Indexfelder einfliesst.


Zum Seitenanfang

Suche

Für die Suche bietet FAST neben einer standardisierten Suchseite auch die Möglichkeit, eine benutzerdefinierte Suchoberfläche zu erstellen, die beispielsweise die implizit vorhandene Funktionalität der Standard-Suchseite explizit und bequem benutzbar macht. FAST ermöglicht z.B. Verfeinerungen der Suche nach Dokumenttyp, Dokumentgrösse und Quellen, die in der Standardsuchseite nur durch ein aufwändiges Editieren des einzigen Eingabefeldes und durch die Kenntnis der implizit vorhandenen Möglichkeiten zu erreichen sind. Eine benutzerdefinierte Suchseite kann für jede Eingabe ein Eingabefeld bzw. eine Schaltfläche („button“) zur Verfügung stellen. Zusätzlich zur standardisierten Suchseite bietet FAST für die Suchergebnisse vier Anzeigeformate: HTML (Web), HTML (Generic), WML und XML.


Zum Seitenanfang

Web-Crawler

FAST unterstützt die Integration von Dokumenten aus verschiedenen Quellen wie Texten aus dem WWW oder Inhalten von Datenbanken und Filesystemen (vgl. Abbildung 1). Der FAST-Webcrawler lokalisiert die Dokumente auf Web-Servern (Internet oder Intranet bzw. Extranet) und holt sie in eine Kollektion. Er beginnt dabei mit einer Start-URL oder mit einer Liste von URLs und folgt jedem der Crawlerkonfiguration entsprechenden Link auf den erreichten Seiten. Der Web-Crawler besitzt u.a. folgende Eigenschaften:

  • Crawling von HTTP- und HTTPS-Seiten
  • Crawling von FTP-Seiten
  • Spezifikation von Domainbereichen des Webs, die abgesucht werden müssen bzw. die ausgeschlossen werden
  • Spezifikation der Abfragerate und der Häufigkeit der Aktualisierung
  • Spezifikation des (MIME-)Typs der zu holenden Dokumente
  • Holen von sowohl statisch als auch dynamisch generierten Seiten


Zum Seitenanfang

Datei-Traversierer

Der Datei-Traversierer von FAST durchsucht Dateisysteme und holt Dokumente eines spezifizierten Typs aus diesem Dateisystem in eine angegebene Kollektion. Für die Konfiguration des Traversierers gibt es keine standardisierte grafische Benutzeroberfläche. Alle Konfigurationsangaben werden beim Aufruf des Datei-Traversierers gemacht, z. B.:

  • Spezifikation des Typs der zu holenden Dokumente
  • Holen von Dokumenten in Bündeln, deren Grösse man durch die Angabe von Dateigrösse oder der Dateianzahl spezifizieren kann


Zum Seitenanfang

API (Application Programming Interface)

Über die FAST API übergeben sowohl die Standard-Module (Crawler oder Datei-Traversierer) als auch vom Benutzer geschriebene Modulen Daten an die FAST Suchmaschine (genauer: an das Modul ”Content Distributer“). Standardmässig bietet die API von FAST Benutzerschnittstellen für Java, C++ und COM [15].


Zum Seitenanfang

 

Zurück

Weiter