Lors de la demi-journée d'étude du lundi 15 octobre, la Bibliothèque nationale de France (BnF), l'équipe Représentation des connaissances et langage naturelle du Laboratoire d'informatique et de Paris Nord (LIPN-RCLN) de l'université Paris 13 et le laboratoire Linguistique, langues, Parole (LILPA) de l'université de Strasbourg présenteront les principaux résultats du projet Néonaute. Ce projet, soutenu par la Délégation générale à la langue française et aux langues de France (DGLFLF) dans le cadre de l'appel à projet 2017 « Langues et numérique », vise à doter les observateurs de la langue française d’un moteur de recherche s'appuyant sur la collection « Actualités » du dépôt légal du web conservée à la BnF depuis 2010.
Présentation
Le projet Néonaute est un projet financé de septembre 2017 à septembre 2018 par la Délégation générale à la langue française et aux langues de France (DGLFLF) dans le cadre de l'appel à projet 2017 « Langues et numérique » qui rassemble deux laboratoires de recherche (LIPN-RCLN UMR 7030 CNRS Université Paris 13 SPC ; LILPA EA 1339, Université de Strasbourg) et la Bibliothèque nationale de France (BnF).Le projet Néonaute vise à doter les observateurs de la langue française d’un moteur de recherche s'appuyant sur la collection « Actualités » du dépôt légal du web conservée à la BnF depuis 2010, comprenant plus de 10 To de données textuelles de la presse en ligne. L'objectif principal est d'enrichir les index disponibles avec les résultats d'une analyse linguistique automatique : analyse morphosyntaxique, détection des entités nommées (noms de personnes, de lieux et d'organisations), analyse thématique. Les différentes informations sont ensuite indexées et peuvent être interrogées. Trois cas d'utilisation sont également prévus, liés à la néologie et à son suivi en corpus. Néonaute se présente sous la forme d’une plateforme dotée de fonctionnalités de recherche avancée (exploitation de métadonnées, analyse linguistique automatique, visualisation interactive des résultats, recherche par liste de mots) avec un prototype disponible en ligne.
L'objectif de la demi-journée d'étude est de présenter les résultats principaux de ce projet, les verrous encore à surmonter et d'envisager une suite à ces travaux.
Inscriptions
Toute personne intéressée est cordialement invitée à participer. Pour des raisons pratiques, l'inscription en ligne est obligatoire à l'adresse suivante : https://dautrice-a-zlataner.eventbrite.fr
Programme
13h30-14h Café de bienvenue
14h-14h15 Introduction par Loïc Depecker (délégué général à la langue française et aux langues de France) et Sylviane Tarsot-Gillery (directrice générale de la BnF)
14h15-14h30 Présentation des collections du dépôt légal de l’internet par Peter Stirling (BnF)
14h30-16h15 Enrichissement linguistique des sites de presse archivés à la BnF (Données, métadonnées, outils)
Animateur : Christophe Gérard
14h30-15h – De la collecte des sites à l'indexation des archives web / Sara Aubry (BnF)
15h-15h30 – Analyses linguistiques et enrichissement des index / Loïc Galand (Univ. Paris 13, LIPN)
15h30-15h45 – [Démo] Archives de l’internet Labs / Peter Stirling (BnF)
15h45-16h15 – [Démo] Fonctionnalités de Néonaute / Emmanuel Cartier (Univ. Paris 13, LIPN)
16h15-16h30 Pause
16h30-17h15 Exploration des sites de presse archivés à la BnF (2010-2017) (Cas d’étude : méthodologie et premiers résultats)
Animateur : Emmanuel Cartier
16h30-16h50 - Suivi des néologismes et/ou analyse automatique des thèmes / Christophe Gérard (Univ. de Strasbourg), Nicolas Scarcella (stagiaire)
16h50-17h10 - Termes féminisés / Pierrette Crouzet-Daurat (DGLFLF), Gabrielle Le Tallec (Univ. Paris 13), Olivia Sanchez (stagiaire)
17h15-18h00 Table ronde : mise en perspective par Thibault Grouas (DGFLF), Antoine Doucet (Université de La Rochelle, projet européen H2020 NewsEye) et les partenaires du projet.
18h00-19h00 Cocktail
Contact. emmanuel.cartier@lipn.univ-paris13.fr