Archives ouvertes et bases de publications : exploration et analyse des sources de données pour la recherche et ses environnements

L'Inria le CNRS et l'IRHT organisent le 23 mai prochain à Paris une journée d'étude intitulée : Archives ouvertes et bases de publications : exploration et analyse des sources de données pour la recherche et ses environnements.

L’évolution numérique majeure de la recherche scientifique et de ses impacts societaux, économiques et industriels permet maintenant d’avoir accès aux données scientifiques tels que les textes publiés dans des archives ouvertes, des revues ou des conférences ainsi que les données d’expérimentation ou les résultats de simulation, mais également, et c’est fondamental, aux données d’usage des différents services qui se mettent en place. 
Le développement de méthodes d’analyse de ces données, ou l’application de méthodes existantes, est une étape inévitable de cette mutation. De la même manière que le monde du business a intégré avec succès les méthodes d’analyse de ses données, le monde académique envisage maintenant les nombreuses possibilités offertes par ces méthodes sur les données scientifiques. Ces méthodes couvrent tout le processus de valorisation des données, leur préparation, leur analyse (apprentissage, fouille, statistiques, recommandation…) jusqu’à l’interprétation des résultats, ainsi que leur visualisation. Les enjeux pour les données de publication sont cruciaux par la valeur que ces méthodes peuvent ajouter au monde de la recherche. Ces enjeux peuvent concerner l’aide aux chercheurs, l’ouverture au grand public (avec la mise à disposition d’indicateurs transparents), ou encore la gestion de la recherche ou la prospective scientifique. Tels sont les constats formulés lors du colloque “Publication scientifique, innovation et services à la recherche” des 9 et 10 novembre 2015 à Meudon, organisé conjointement par l’ADBU, Couperin, EPRIST et la DIST du CNRS.
L’aide aux chercheurs peut prendre la forme de recommandations (e.g. quels articles concernent un sujet particulier pour constituer une bibliographie, en relation avec des requêtes similaires ? Quels collègues sont actifs sur ce sujet, et quels sont les co-auteurs dans le graphe de relations ? Qui sont les auteurs dont les publications sont souvent consultées ensemble dans des requêtes des usagers d’une plateforme comme HAL ? etc.). Elle peut aussi venir de la détection de tendances dans les mots clés enregistrés dans les publications d’un domaine, d’une meilleure compréhension des facteurs d’impact et de visibilité des travaux d’un chercheur, ou encore de la corrélation entre jeux de données disponibles publiquement pour permettre une plus large diffusion de ces derniers.
Le grand public pourrait disposer d’indicateurs transparents sur les activités de recherche d’un territoire (département, région, pays) en lien avec les données disponibles (e.g. les travaux sont-ils issus d’un laboratoire privé, public, ou une collaboration entre les deux ? Quelle est la source du financement ? Quelle est l’ancienneté de l’équipe sur le sujet ? etc.).
Enfin, la gestion de la recherche peut se voir suggérer, par la communauté des chercheurs analysant ces données, de nouveaux descripteurs qui permettent, par exemple, d’évaluer l’impact d’un appel à projet et de son orientation sur les publications qui ont suivi dans les années suivantes ; de comprendre les collaborations locales, nationales ou internationales ; de mieux situer la recherche publique et la recherche privée (en termes de sujets, de collaborations, de relations internationales, etc.) ; ou encore de situer les laboratoire entre eux selon les domaines de publications, les conférences auxquels ils participent ou les interactions entre auteurs.

Les objectifs de cette journée :
• Présenter des corpus de données réelles préparées et/ou annotées, permettant d'explorer et d'analyser les données de la recherche. Ces corpus évolueront selon les échanges de cette journée, puis seront mis à disposition dans le cadre d'un appel à projet ultérieur. Cette journée regroupera donc les chercheurs et les fournisseurs de services et de données scientifiques pour mieux comprendre ces données et comment les utiliser pour mettre à disposition des chercheurs, des équipes et des organismes de recherche des services à haute valeur ajoutée.
• Présenter des travaux (les communications retenues pour cette journée) permettant de mieux connaitre les interactions possibles entre le paysage actuel de la recherche en analyse de données et celui des données de la recherche. Les présentations auront pour objectif d'expliquer ces travaux et d'en dessiner une prospective sur des applications possibles aux données de la recherche.
• Présenter un appel à projet, en cours de réflexion, autour de ces données. Les participants et les travaux présentés enrichiront les thèmes de l'appel afin d'assurer la meilleure adéquation avec les possibilités offertes par l'analyse de données.

 
Le principal corpus présenté lors de cette journée, et qui sera au centre de l’appel à projet à venir, concerne les données de HAL. Il représente environ 300 000 articles, liés à plus d’un million de notices métadonnées. Ce jeu de données sera téléchargeable pour être utilisé localement. On pourra également considérer les extractions faites à partir des pdf comme les images, les figures d’expérimentations, etc. Les données d’usage (consultation des articles, pages auteurs, etc.) seront également présentées et mises à disposition dans un cadre éthique approprié.

 

Date: 
Lundi, 23 Mai, 2016 -
09:00 - 17:00

Type d'événement: