Dans un contexte de plus en plus responsabilisant pour les administrateurs de données aussi bien d’un point de vue juridique que technique (protection, sécurisation), on constate une attente forte des acteurs de tous bords autour de la data science, et son cortège de mots clés (big data, linked data, data mining, geovizualisation, data driven models, data lake).
Ce contexte place le(s) métier(s) des bases de données face à de nouvelles exigences technologiques, institutionnelles et organisationnelles pour résoudre les questions de qualité et de qualification, de traçabilité, de recherche, de diffusion et d’exploration des données. Ce contexte redessine les frontières de métiers en pleine mutation, dont on peut se demander quelles en sont les limites. Comment ces nouvelles technologies et ces nouveaux métiers interagissent avec les bases de données ? C’est à ces questions que nous tenterons d’apporter des réponses.
Les pré-inscriptions sont ouvertes !
Vous avez jusqu’au 15 août pour vous inscrire, les candidats retenus pour la formation seront avertis mi septembre.
Organisation :
- Cette formation est ouverte aux personnels CNRS et non CNRS
- Elle se déroule à Sète du 5 novembre à 12h au 7 novembre 2018 à 12h en résidentiel au Lazaret.
- Les participants non CNRS doivent s’acquitter d’un droit d’inscription s’élevant à 320€ comprenant l’hébergement, les repas et l’enseignement.
- Pour les agents CNRS, cette ANF étant en résidentiel, ils devront contacter leur délégation d’origine uniquement pour la prise en charge de leur déplacement.
- les participants s’engagent :
— à assister à l’intégralité des journées
— à séjourner au Lazaret pendant toute la durée de la formation
Programme provisoire
Lundi 5 novembre 14h-17h30 (intervenant : copil de rBDD + extérieurs)
Les métiers autour des sciences des données
- Présentation des activités de l’atelier des données (Groupe de travail « données » de la MI) et Data Management Plan (DMP)
Intervenantes : Geneviève ROMIER + Marie-Claude QUIDOZ
- Le software management plan (SMP)
Intervenante : Geneviève ROMIER
- Atelier – Débat : Évolution des métiers (témoignage de datascientist)
Quelle définition peut-on donner au métier qui commence par « data » (datascientist, datacurator, datamanager, dataminer, …) ?
Quelles activités et métiers sont concernés ?
Quelles compétences sont nécessaires ?
Comment évoluer dans notre métier pour répondre à ces nouveaux challenges ?
Existe-t-il des postes de « datascientist » dans notre environnement ?
Mardi 6 novembre
30 personnes maximum par groupe
Ateliers de 3h30 (chaque personne assistera aux 2 ateliers)
1. Atelier traçabilité des données
- Gestion des requêtes dynamiques, utilisation d’identifiant pérenne pour conserver la traçabilité des données.
- Gestion des versions, historisation et archivage des bases de données.
- Attribution d’identifiants pérennes à des données massives et/ou dynamiques
- Comment définir la traçabilité d’un jeu de données ou d’une requête ?
- e maj : un cas d’utilisation pour tracer les données
Intervenants : Marie-Claude QUIDOZ, Philippe BEAUDOIN
2. Atelier qualité des données
Quelles sont les différentes notions de qualité des données ?
Comment contrôler la qualité des données dans la BDD : avant ou pendant l’insertion de données
Faut-il automatiser le contrôle de la qualité dans les bases ?
Quels sont les outils disponibles et comment les utiliser ?
- Introduction méthodologique et terminologique
- OpenRefine pour traiter son fichier d’entrée
- Les procédures de contrôle stockées dans postgreSQL
- le traitement et l’analyse des données (R ou/et Python)
Intervenants : Christine PLUMEJEAUD, Jean-Baptiste PRESSAC, Chloé MARTIN
Mercredi 7 novembre 9h-12h30
- Questions juridiques concernant la nouvelle législation sur les données personnelles, les licences propres aux bases de données et logiciels ainsi que l’accessibilité des données (loi sur une république numérique –lien avec les publications, RGPD).
Intervenant : Direction des affaires juridiques (DAJ) du CNRS
- Comment rendre disponible ses données au travers d’un entrepôt de données ?
Quels avantages et quels inconvénients pour gérer l’accessibilité de ses données ?
Intervenants : à préciser