Définition

Les moteurs de recherche scientifiques, à cause de leur focalisation sur le contenu, représentent un service de recherche particulier. Comparés aux moteurs de recherche plus généraux, ils peuvent être distingués principalement par leur base de documents, et aussi par leur focalisation thématique. Les moteurs de recherche scientifiques comme Google Scholar ou BASE ne cherchent que des documents qui ont été jugés scientifiques. SearchMedica ou CiteSeerX se limitent en outre aux documents scientifiques des domaines de la médecine respectivement de l’informatique et des sciences de l’information. 

De ce fait les bases de données sont d’un côté les documents scientifiques librement accessibles sur le web, de l’autre côté les contenus du web dit « invisible » (aussi appelé « web profond »). Il s’agit de contenus qui ne peuvent pas être exploités par les moteurs de recherche généraux à cause de restrictions techniques ou pour des raisons de droits de licence, comme c’est le cas des contenus des bases de données payants ou des textes de revues scientifiques électroniques qui ne sont pas libres d’accès [4]. Les moteurs de recherche scientifiques sont par conséquent souvent des systèmes hybrides ayant le but d’indexer non seulement les contenus du web spécialisés libres d’accès (en Open Access), mais aussi des contenus proposés par des maisons d’édition ou d’autres institutions, aussi longtemps que des accords avec les fournisseurs respectifs le permettent.

Pour ce faire, une méthode appelée « focused crawling » (l’indexation focalisée) est utilisée. La collecte de données de tels moteurs de recherche est basée sur des listes blanches (« white lists » ou « seed lists ») : il s’agit de listes de serveurs web dont les contenus ont principalement un caractère scientifique. Cette présélection permet de faire un premier contrôle de qualité et aussi de définir le thème principal [5].

 

Le terme de « moteur de recherche scientifique » est utilisé sur SPRINT pour des offres dont les sources ont un caractère scientifique et respectent les critères suivants :     

  • La collecte et l’actualisation de documents se font automatiquement, soit par :
    • des robots/crawler/collecteur (harvester), basés généralement sur des listes blanches et/ou
    • l’Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) pour la récupération de métadonnées structurées.
    • En outre, des liaisons directes sont rendues possibles avec les interfaces de bases de données ou de dépôts (repositories).
  • Le service de recherche dispose d’un propre index qui est créé par :
    • une indexation automatique des documents (éventuellement en utilisant des schémas de métadonnées comme Dublin Core ou MARC) ; ou grâce à
    • une recherche fédérée (« federated search »), par une agrégation d’autres index.
  • En plus, le service de recherche doit offrir sa propre interface de recherche et un classement autonome.

 

retour

avancer