Protocoles pour des systèmes de recherche fédérées

La disposition de protocoles d’échange standardisés est capitale à la fois pour les métamoteurs et pour les systèmes de recherche fédérés.

D’une part, ces protocoles sont nécessaires pour permettre à un métamoteur d’accéder à un autre service de recherche. Pour la transformation de requêtes de recherche et la présentation consistante des listes de résultats, il est important d’avoir des standards correspondants.

D’autre part, les protocoles d’échange standardisés sont la condition sine qua non pour que des moteurs de recherche puissent prendre en compte lors de l’indexation de document non seulement l’indexation du texte intégral des sources trouvées, mais aussi des métadonnées structurées.

Le chapitre suivant présente les protocoles les plus importants utilisés par les services de recherche scientifiques.

Z39.50

SRU / CQL

OAI-PMH

Z39.50

Le protocole Z39.50 pour l’interrogation de bases de données bibliographiques hétérogènes permet de rechercher dans des catalogues de bibliothèques et dans d’autres bases de données de références sur le web. Z39.50 représente une solution simple et indépendante des structures de données et formats de données utilisés pour un échange entre systèmes de données bibliographiques ; il favorise ainsi l’interopérabilité des bases de données de références [1].

La force de ce protocole est qu’il permet de séparer l’interface utilisateur (client) des serveurs, moteurs de recherche et bases de donnés. Z39.50 contient un langage de requête et plusieurs formats de résultat. Le langage de requête consiste en un ensemble de mots-clés et une syntaxe pour la formulation de requêtes booléennes.

Z39.50 est essentiellement contrôlé par le client et permet une interrogation différenciée des métadonnées. Le protocole est complexe et cible clairement les métadonnées très structurées des bibliothèques. C’est pourquoi il est surtout utilisé dans ce domaine, mais il a également été adopté par différents logiciels de gestion de références bibliographiques. Du point de vue de l’utilisateur, Z39.50 permet une recherche de type réseaux dans des bases de données hétérogènes, indépendamment du format des métadonnées, de la syntaxe de recherche, du système d’exploitation utilisé ou du matériel des bases de données.

SRU / CQL

L’initiative ZING (Z39.50-International: Next Generation) quant à elle a pour but de développer le Z39.50 pour établir l‘utilisation de telles approches au-delà de la bibliothéconomie, et ce, dans des domaines diversifiés. Ces dernières années, plusieurs solutions ont été élaborées qui se caractérisent, en comparaison au Z39.50, par des barrières de réalisation moins importantes ce qui augmente leur attractivité pour des fournisseurs d’information. Certaines de ces initiatives essaient de faciliter le protocole Z39.50, d’autres cherchent une solution qui garde la forme initiale du protocole tout en cachant sa complexité.

Une caractéristique principale de ces solutions est qu’elles se basent sur des standards établis comme l’URI (Uniform Resource Identifiers) ou XML (Extensible Markup Language) [14].

Les protocoles qui ont su s’imposer pour l’instant sur le marché sont le Search/Retrieve Web Service Protocol (SRW) et alternativement le protocole dérivé du premier Search/Retrieve via URL (SRU)  ; dans les deux cas, le langage de requête CQL (Contextual Query Language)  est utilisé. Il s’agit d’un langage formel pour la représentation de requête pour les systèmes de recherche d’information. Le but du développement de CQL était de créer un langage de requête qui soit utilisable d’une manière simple et intuitive, mais qui permette aussi de générer des requêtes complexes identiques à celles des langages de requêtes complexes comme SQL (Structured Query Language) ou XQuery.

OAI-PMH

Un autre protocole important et très répandu est le Protocol for Metadata Harvesting de l’Open Archives Initiative (OAI-PMH). Il s’agit d’un framework d’interopérabilité indépendant de l’application pour l’échange de métadonnées [14].

Le développement de l’OAI-PMH remonte aux administrateurs de serveur de prépublications. De tels bases de données de publications, exploitées par des instituts de recherche, des bibliothèques des hautes écoles ou d’autres institutions universitaires, n’ont pu être interrogées auparavant que directement dans les serveurs respectifs. L’OAI-PMH a été développé pour améliorer l’exploitation de ces ressources et pour pouvoir les retrouver plus facilement.


Contrairement au protocole Z39.50 qui interroge quelques bases de données bibliographiques lors d’une recherche fédérée, l’OAI-PMH sert à la récolte préalable des métadonnées. L’OAI-PMH définit un standard pour la requête et le transfert de métadonnées entre les fournisseurs de données (data providers) et les prestataires de services (service providers). L’échange entre les fournisseurs de données et les prestataires de services se fait grâce au protocole HTTP et les données sont codées en XML. Des fournisseurs de données sont des administrateurs de serveurs web qui s’occupent essentiellement du développement d’archives et de la conservation à des données. Pour la réutilisation de ces données par des tiers, ils rendent les données visibles sur le web et les mettent à disposition sous forme structurée. Les prestataires de service implémentent sur cette base des services pour les utilisateurs finaux, p.ex. le développement de moteurs de recherche thématiques.

Comme plus petit dénominateur commun, l’OAI a défini parmi la multitude de formats de métadonnées existants le modèle de données Dublin Core. L’utilisation de d’autres formats comme MARC ou MARCXML est cependant recommandée et est souvent pratiquée.