Cette journée se propose d’étudier les solutions adoptées par différentes communautés (contributeurs ou partenaires de DARIAH, institutions culturelles, etc.). Le matériau de cette réflexion sera fourni par des projets ayant mis en place des plateformes ou des instruments de recherche d’information.
Les référentiels – au sens de thésaurus ou d’ontologies – et les vocabulaires forment le socle sur lequel se construit l’interopérabilité entre des données issues de domaines connexes ou non. Leur qualité, c’est-à-dire leur complétude et leur mode de structuration, conditionne la performance et l’efficience des instruments, manuels ou automatiques, qui sont proposés aux chercheurs pour identifier une information pertinente.
Le « Web de données », ou « Web sémantique », est précisément un dispositif visant à structurer et à échanger des données. Son principe est de représenter les liens entre les données en éliminant toute ambiguïté, afin de permettre leur traitement par des machines. Le modèle repose sur l’usage de « triplets » qui associent une valeur à un objet ou expriment des relations entre des objets. On désigne chacun des objets grâce à un Uniform Resource Identifier (URI) et, puisque les relations doivent être exprimées d’une manière normalisée, le vocabulaire prend le plus souvent la forme d’une « ontologie », elle-même accessible par un URI. Ce modèle de représentation, associé aux technologies décrites plus haut, est le Resource Description Framework (RDF).
Si l’on part de l’hypothèse que le modèle RDF (et les couches supérieures que sont RDFS et OWL) constitue un standard efficace pour la représentation des données et des connaissances, il devient possible de créer des relations entre des ressources qui s’appuient sur des modèles conceptuels différents, à la condition que les vocabulaires utilisés, et notamment leur sémantique, soient explicites.
Il est utile de distinguer deux types de vocabulaires, comme le fait le groupe Library Linked Data du W3C (LLD XG).
- Les vocabulaires de métadonnées constituent un ensemble de types de propriétés, qui permettent de décrire certaines propriétés d’une ressource. Le Dublin Core en est l’exemple emblématique.
- Les vocabulaires de valeurs permettent de constituer des valeurs contrôlées pour des types de propriétés, comme il est d’usage de le faire pour des notices bibliographiques. Le Library of Congress Subject Heading (LCSH) ou le code des langues ISO 639-2 en sont deux exemples.
Il s’agira donc d’aborder la question de l’élaboration de référentiels de valeurs (taxonomies, ontologies, thésaurus) dans un contexte multilingue. L’utilisation de ces référentiels permet de gérer l’interopérabilité, en construisant une passerelle d’interconnexion à moindre frais entre les différents vocabulaires (modèle « hub and spoke »). Dans ce cadre, on s’intéressera aux passerelles développées entre différents moteurs de recherche qui privilégient notamment la mise en place de relations, au sens où on l’entend dans le Web sémantique, entre des taxonomies existantes. De plus, on étudiera les possibilités offertes par l’exploitation automatique de ressources multilingues qui permettent de construire une interopérabilité fondée sur des heuristiques d’usage (modèle « follow your nose », comme dans le cas de DBpedia).
Lors de cette journée, les intervenants présenteront leur expérience pratique pour donner des éléments de réponse à deux questions :
- Comment créer ces vocabulaires et à quelles difficultés se trouve-t-on confronté ?
- Comment utiliser de tels référentiels pour enrichir automatiquement ses données ?
Les questions ou les témoignages des participants, en particulier à la fin de la journée, aideront à montrer clairement ce que ces technologies apportent aux pratiques de recherche.
Interviendront lors de cette journée Rodolphe Bailly (Cité de la Musique), Isabelle Donze (LESC), Thibault Grouas (DGLFLF), Lorna Hugues (National Library of Wales, Projet Nedimah), Alexandre Monnin (Paris I, Inria), Yann Nicolas (ABES).