Technik

Die CiteSeerX-Infrastruktur nennt sich SeerSuite und ist als Open Source verfügbar [4]. Die Grundkomponenten der Suchmaschine bilden ein fokussierter Webcrawler, das Dokumentenarchiv mit den dazugehörigen Indexen und die Suchmaske [5].

Der Webcrawler von CiteSeerX wird citeseerxbot genannt [6]. Er sucht das Web gezielt nach Dokumenten ab, die beispielsweise Wörter wie „documentations“, „papers“ etc. beinhalten. Um sicherzustellen, dass es sich um wissenschaftliche Artikel handelt, wird nach einem Referenz- oder Bibliografieteil innerhalb des Dokuments gesucht [7].

Die herausgefilterten Dokumente werden anschliessend indexiert. Dafür wird die Methode des Autonomous Citation Indexing (ACI)  verwendet. Referenzierte Artikel werden automatisch verlinkt, was eine einfache Navigation und Auswertung ermöglicht [5]. Alle Artikel und Zitierungen werden gemeinsam im Volltext indexiert [6].