Lancement de la 19e collecte large annuelle des sites web français

Dans le cadre du dépôt légal du web, la BnF a lancé le 18 octobre dernier sa campagne annuelle de collecte des sites web français.

Le robot de collecte Heritrix va collecter pendant environ 6 semaines plus de 5,7 millions de domaines afin de créer un échantillon représentatif du web français de l’année 2023. Le volume de données collectées devrait atteindre 141 téraoctets. Une fois les pages web collectées, archivées et indexées, elles seront consultables grâce à l'application Archives de l'internet dans les salles de recherches de la BnF et dans les bibliothèques de dépôt légal imprimeur en régions (BDLI).

En complément de cette collecte large réalisée une fois par an sur un très grand nombre de sites français, la BnF organise des collectes ciblées plus régulières et plus profondes de sites sélectionnés par des bibliothécaires des BDLI et de la BnF.
Cinq BDLI (Strasbourg, Nancy, Montpellier, Marseille et La Réunion) disposent ainsi d'une collecte régionale leur permettant de sélectionner des sites en lien avec la vie politique, économique, sociale et culturelle de leur région. De plus, à chaque élection avec une dimension locale, les BDLI sont invitées à repérer des sites en lien avec la campagne dans leur région pour alimenter les collectes électorales."


En savoir plus sur :
Le dépôt légal du web (nouvelle page du site bnf.fr)
La consultation des Archives de l’internet à la BnF et en régions
Où consulter les archives de l'internet de la BnF ? (carte)

Type de ressouce: