Accès aux documents et leur référencement

L’accès aux documents des résultats des moteurs de recherche scientifiques est souvent déterminé par les sources des documents. Les contenus qui peuvent être accédés librement sur les serveurs web ou en libre accès (Open Access) sont reliés directement dans la liste des résultats et peuvent être consultés grâce à l’URL. Il s’agit souvent de fichiers PDF, Microsoft Word, HTML ou PostScript et peuvent être ouverts directement par les utilisateurs.

Un autre type de résultats sont les références de littérature imprimée (articles de périodiques, livres etc.) qui n’ont pas de pendant en ligne dont les adresses URL ne se font pas partie du moteur de recherche. Pour ces informations, il n’y a que les métadonnées qui sont affichées et les utilisateurs doivent aller chercher la source ailleurs. L’illustration 11 montre une liste de résultats de Google Scholar avec les liens vers les citations ([ZITATION]), la littérature imprimée ([BUCH] = livre) et les documents électroniques ([HTML], [PDF]).

Illustration 11: Différents types de résultats de Google Scholar

Le référencement avec l’URL ne sert qu’à la localisation des objets et ne dit rien par rapport à l’identité de l’objet et ne garantit pas que l’objet puisse à un autre moment toujours être trouvé à cette adresse.

Si les objets sont déplacés vers un autre emplacement, les références et liens hypertexte pointent dans le vide. Si l’objet référencé est remplacé par un autre objet, celui-ci ne correspond peut-être plus à l’intention de la référence originale [33]. A cause de cette problématique, les adresses URL ne se prêtent pas pour un référencement persistant de documents et d’objets.

Un autre problème est celui des droits d’accès éventuels des sources de documents concernées ; ceci est le cas de dépôts ou des bases de donnés payants (p.ex. d’éditeurs) ou des fournisseurs qui demandent à l’utilisateur d’être membre ou affilié avant de lui donner accès aux sources sous licence de l’organisation (p.ex. bibliothèques). En utilisant des adresses URL simples, on ne peut indiquer que le site web du fournisseur. L’utilisateur doit ensuite s’occuper lui-même de l’accès au document.

Depuis les années 1990, une solution pour ce problème est recherchée (cf. le matériel du W3C) . Selon la RFC 3986, on entend sous « Uniform Resource Identifiers » (URI) des concepts qui permettent d’identifier des objets de manière unique (Uniform Resource Names, URN), des concepts pour la localisation d’objets sur le web (Uniform Resource Locators, URL) ainsi que des combinaisons des deux concepts. Les URI sont composés de l’identifiant du protocole réseau grâce auquel on peut accéder à un objet, du nom du serveur (domain name) ainsi que du chemin sous lequel l’objet est stocké sur le serveur.


Les URN sont, contrairement aux URL, des identifiants uniques de ressources numériques, grâce à leur espace de noms. Un espace de noms peut être un identifiant qui a déjà été attribué par un autre mécanisme (comme l’ISBD ou l’ISSN) ou un tout nouvel identifiant. Les espaces de noms de l’URN sont utilisés beaucoup par certains acteurs et moins par d’autres. Leur utilisation est très courante dans le domaine des bibliothèques nationales. Elles utilisent l’espace de noms « nbn » (National Bibliography Number) qui est réglé par la RFC 3188 de l’Engineering Task Force (IETF). „urn:nbn:ch“ est p.ex. le domaine coordonné de la Bibliothèque nationale suisse (liste complète des espaces de noms URN registrés) . Les URN ne peuvent pas être accédés directement, mais doivent être traduits en adresse internet valable par un service de résolveurs . Puisqu’il n’y a pas de « résolveur » universel pour les URN, il est souvent indiqué avec l’URN.

Un autre concept pour l’adressage permanent des objets sur internet est le système de « handle » (pointeurs)  qui a été développé par la Corporation for National Research Initiatives. Il propose une solution visant à résoudre le problème en le prenant à l’envers, à savoir une ressource numérique reçoit une adresse virtuelle permanente sur le réseau des pointeurs qui fait le lien vers l’emplacement de la ressource.  

Le système de Handle met à disposition une infrastructure technique pour la gestion locale des espaces de noms et des identifiants persistants dans un réseau. L’accès aux espaces de noms est coordonné par un service centralisé. Les pointeurs (Handles) peuvent être interprétés en ajoutant dans le navigateur hdl.handle.net avant l’adresse elle-même.

Comme les URN, un pointeur utilise pour la ressource un espace de noms (préfixe) et un identifiant local unique (suffixe). „10.1045/may99-paskin“ se compose de l’espace de noms suivi de l’identifiant de la ressource, un article de Paskin qui a été publié en 1999 dans le magazine D-Lib. L’article est directement accessible sous l’adresse hdl.handle.net/10.1045/may99-paskin [34].

Le terme de Digital Object Identifyer (DOI)  a été utilisé pour le développement d’un concept combinant des pointeurs et des URN. Les DOI améliorent les deux principes grâce à un système très développé de directives pour l’utilisation du DOI ainsi qu’un réseau d’agences de régistration. Le système des DOI a l’avantage de l’interopérabilité avec d’autres systèmes, c’est pourquoi il s’est répandu assez vite.

Pour l’accès automatique aux contenus payants, des solutions existent également : en utilisant le standard OpenURL et un résolveur de liens ainsi que des processus d’authentification, les usagers de bibliothèques ou d’autres institutions du domaine de l’information peuvent accéder sans détour aux contenus sous licence par les institutions.

Le standard OpenURL (ANSI/NISO Z39.88) a été développé par Herbert Van de Sompel et ses collègues de l’Université de Gent (Belgique) [35]. L’OpenURL définit un protocole de transfert pour les métadonnées qui permet de combiner les données bibliographiques ou l’identifiant sous forme structurée dans une URL dynamique. L’URL dynamique est adressée à un serveur, appelé résolveur de liens qui identifie les ressources ou autres services compatibles avec l’OpenURL correspondant à la description. Un tel résolveur de liens consiste en une base de données (appelé Knowledge Base) qui contient les liens vers les différents services et dans laquelle les services auxquels une institution est abonnée, peuvent être déverrouillés. De plus, un résolveur de liens a besoin d’un composant d’analyse qui vérifie les métadonnées d’un résultat (p.ex. auteur, titre) qui ont été transférées par la base de données d’origine, et qui choisit ensuite dans la Knowledge Base les services correspondants accessibles à l’institution et les met à disposition dans un menu.

Si l’utilisateur sélectionne un point du menu, l’URL est créé ad hoc et permettant d’accéder au texte intégral ou au service [36]. Les résolveurs de liens ou serveur de liens facilitent ainsi surtout des recherches séquencetielles (pour une présentation plus détaillée, regardez [37]). Les résolveurs de liens les plus connus sont « Ex Libris SFX » et « Ovid LinkSolver ». Les deux peuvent être utilisés avec d’autres produits des éditeurs respectifs ou intégrés dans des solutions indépendantes d’autres systèmes.

Puisque les moteurs de recherche scientifiques relient les résultats d’une recherche avec des liens hypertexte, ils examinent de manière approfondie l’identification unique et l’adressage persistant ainsi que l’accès aux documents protégés. Le programme des « Library Links » de Google Scholar offre aux bibliothèques de rendre accessible à leurs utilisateurs les sources de données licenciées directement dans Google Scholar grâce à un résolveur de lien.