Relier les données : un enjeu majeur pour les usages ? Une journée-conférence organisée par l’équipe du projet Datalift le jeudi 27 mars 2014 à Paris

Le jeudi 27 mars 2014, à Paris, Numa, au 39 rue du Caire, s'est tenue la journée conférence organisée par l’équipe du projet Datalift, dans le cadre du lancement officiel de la plateforme et de l’association éponyme.

Les présentations sont en ligne à cette adresse : http://www.fing.org/?id=506&lang=fr&page=evenement&utm_medium=twitter&utm_source=web

 

Compte rendu :

Datalift est le résultat d'un programme ANR Contint, 2010, ANR-10-CORD-009.
Le programme ANR s'est officiellement terminé le 27 mars 2014 avec l'organisation de cette journée finale.
L'ensemble des livrables est disponible à cette adresse: http://datalift.org/fr/node/19

Qu'est-ce que Datalift?

"C'est un ascenseur pour les données".

DataLift est un programme de recherche qui a permis le développement d'une chaîne complète et intégrée de traitement permettant aux producteurs de données de les publier sur le web de données. La plateforme qui en est issue permet le découpage par tâches des différentes étapes de publication en mettant à disposition différents outils spécialisés. Il est ainsi possible de sélectionner les ontologies qui permettront de décrire les données brutes, de récupérer et de traiter ces données dans des formats tels que csv ou xml, de les convertir en RDF, puis de les publier et de les interconnecter avec d’autres jeux de données existants.
Le programme de recherche a bénéficié de collaborations ou de partenariats avec des institutions qui sont pour certaines de grands producteurs de données: BnF, IGN, INSEE...

La plateforme de traitement de données est maintenant disponible en open source à cette adresse: http://datalift.org/fr/node/23

Chacun est libre de la télécharger, de l'installer et de l'utiliser pour ses propres usages. Cette plateforme continuera en outre de faire l'objet de développements et d'améliorations dans le cadre de l'association Datalift qui a été créée à l'issue du programme de recherche.

Que signifie “relier les données” ?

Suivant l'un des principes fondamentaux du web de données, la publication d'un jeu de données suppose de l'interconnecter à d’autres jeux de données existants. Cela revient à identifier les ressources déjà publiées sur le web de données qui correspondent à des ressources dans le jeu de données à publier. Si l’IGN par exemple publie un jeu de données sur les localités en France, il sera utile d’indiquer les équivalences entre ces localités et les ressources leur correspondant dans DBPedia.

Plusieurs exemples d'interconnexion de jeux de données ont été présentés tout au long de la journée, ainsi que des exemples d'applications pratiques. Parmi eux:

  • La BNF avec data.bnf.fr et la question des alignements avec DBpedia, VIAF, ISNI, IDRef... Rameau, Agrovoc, Thesaurus W...
  • Wikidata, dont l'objectif est de centraliser et de faciliter la maintenance de l'ensemble des données structurées de toutes les entités de Wikipedia: http://www.wikidata.org/wiki/Wikidata:Introduction/fr
    Gautier Poupeau a présenté dans ce cadre un exemple intéressant de mashup sur les monuments historiques: http://labs.antidot.net/search?afs:service=50005&afs:output=xsl
    qui utilise simultanément 7 sources de données ouvertes. Puis en autre sur les musées de France: http://labs.antidot.net/museesdefrance/about.html#search
  • EventMedia : Foster Event Data Publication and Reuse: Faciliter la réutilisation des données évenementielles et leur réutilisation (http://eventmedia.eurecom.fr/)
  • Les données de l'IGN: http://data.ign.fr/
  • Les données liées sur http://www.data.gouv.fr/
    Sur le site officiel sont présentés beaucoup d'exemples de réutilisations des données publiques
  • L'espace de publication en RDF des données de l'INSEE: http://rdf.insee.fr/
    avec un SPARQL Endpoint. Les données publiées comprennent: les données géographiques, qui sont des données issues du Code officiel géographique (COG) concernant notamment les régions, les départements, les arrondissements, les cantons et les communes; les codes et les nomenclatures, telles que la nomenclature d'activités française (NAF), les nomenclatures des professions et catégories professionnelles (PCS) et des catégories juridiques (CJ); les données de population, c'est-à-dire les populations légales issues du Recensement.

 

Le programme complet de la journée est en ligne à cette adresse : http://fing.org/?page=evenement&id=506

Le hastag de la journée était : #datalift

Date: 
Jeudi, 27 Mars, 2014 - 10:00 - 18:00