Ecole thématique Nouvelles méthodes pour la fouille et l’analyse des corpus textuels, 12-16 septembre 2022

La thématique de l'école est précisé en fin de message. Elle est ouverte sur candidature aux chercheurs, enseignants chercheurs, ingénieur d’étude et de recherche, doctorants, post-doctorants, CNRS ou universitaires, français ou étrangers, intéressés par les problématiques de la recherche d’information, la classification, l’annotation et l’extraction d’information propres aux Humanités numériques. Les candidats retenus à la première édition ont été recontactés et réinscrits.

Détails pratiques : elle se déroulera à la Villa Cynthia de Fréjus avec une arrivée à Fréjus le dimanche 11 septembre 2022 fin d'après-midi et  un retour le vendredi 16  septembre 2022 après 16h00.

La formation (ateliers+conférences+hébergement+repas) est gratuite pour les personnels CNRS (ingénieurs ou chercheurs), en dehors des transports (pouvant être pris en charge par la délégation régioanle du participant).
Pour les participants hors CNRS (universités et autres établissement publics ou établissements privés), le coût de l'école hors transport est de 515,25 € TTC (448,03 HT) à régler auprès de la villa Clythia soit directement soit par bon de commande.

Pour participer à cette école thématique, merci de bien vouloir transmettre à Alexandre Gefen alexandre.gefen@cnrs.fret RIchard Walter richard.walter@ens.fr avant le 10 avril 2022 :
• Un bref CV (5 pages maximum)
• Une lettre de motivation (1 page maximum)
Une réponse vous sera donné avant fin avril.

Présentation de l'école thématique
Nouvelles méthodes pour la fouille et l’analyse des corpus textuels
Fréjus, 12-16 septembre 2022

Ces dernières années ont vu la production de corpus textuels de plus en plus considérables pour les SHS, des exemples paradigmatiques étant donnés par la BNF, qui a rendu interrogeable par API le gigantesque fond documentaire de Gallica, ou encore par les corpus de tweets ou les bases d’archives patrimoniales. En même temps, grâce en particulier à l’intelligence artificielle (machine learning, deep learning), des méthodes originales de fouille textuelle (text mining) et des outils logiciels accessibles ont modifié les problématiques principales que sont la recherche d’information, la classification des textes, l’annotation linguistique et sémantique et l’extraction d’information. Topic modeling, classification automatique par apprentissage machine, analyse sémantique par vecteur de mots, annotation automatique et découverte d’entités nommées, ont ouvert de nouvelles perspectives en rendant scientifiquement possible des analyses statistiques quantificatives ou mixtes (quali-quanti) de textes considérés comme des données de la culture contemporaine ou de l’histoire culturelle : c’est la naissance d’une nouvelle discipline baptisée en anglais culturonomic ou cultural analytics. L’analyse des données textuelles en masse est donc désormais possible par de multiples moyens, de plateformes comme Gargantex à des outils individuels comme le logiciel R et ses bibliothèques sans parler d’instruments comme Google Ngram Viewer, etc. Ce sont les nouvelles perspectives pour la recherche ouvertes par ces solutions et ces corpus ayant émergé ces dernières années que vous voudrions explorer.

D’un point de vue concret, le projet de cette école est de faire connaitre et de diffuser les pratiques et les outils formant l’état de l’art en matière d’analyse des données textuelles, en équipant les ingénieurs et chercheurs d’une expertise des solutions disponibles autant qu’un savoir-faire pratique et en favorisant les échanges entre équipes ayant déjà expérimenté de tels projets par l’analyse de cas types. A terme, l’accès aux données massives offre des perspectives déterminantes pour de nombreuses disciplines : de l’analyse socio-politique des échanges sur les réseaux sociaux au distant reading en littérature, de l’histoire culturelle à l’histoire économique, de la linguistique à la philologie, les procédures contemporaines d’analyse des big data textuels sont une nouvelle frontière pour de nombreuses disciplines en permettant le déploiement d’approches empiriques et expérimentales innovantes. De tels méthodes favorisent à la fois le dialogue avec les sciences de l’information et l’interdisciplinarité interne aux SHS et cette école d’été visera à la disséminer dans les laboratoires et les communautés.

Les quatre problématiques principales que sont la recherche d’information, la classification, l’annotation et l’extraction d’information structureront le programme.

1. Recherche d’information : moteurs de recherche plein texte, lemmatisation, recherche vectorielle, ontologie et thesaurus automatisé.

2. Classification : par apprentissage supervisé, par apprentissage non supervisé ; mesure de distance et de similarité entre textes.

3. Annotation : métadonnées et enjeux de l’encodage en TEI, annotation linguistique et outils d’étiquetage POS ; repérage des entités nommées.

4. Extraction d’information et analyse quantitative : analyse sémantique par vecteurs de mot, topic modeling, sentiment analysis, stylométrie.

L'école alternera des ateliers pratiques avec des conférences et présentations de solutions.

Il sera demandé aux participants d'apporter son propre ordinateur et d'en avoir une bonne maitrise. Pour participer pleinement aux ateliers, il est souhaitable d'avoir quelques connaissances en programmation ou du moins en requêtage ou en ligne de commande.

Date: 
Lundi, 12 Septembre, 2022 - 09:30 - Vendredi, 16 Septembre, 2022 - 16:00

Type d'événement: