20 ans d’archives de l’internet à la BnF

Bruno RACINE, Président de la Bibliothèque nationale de France de 2007 à 2016

Point d’orgue des travaux conduits tout au long de l’année dans le cadre du projet CORPUS (préfiguration d’un service de fourniture de corpus aux chercheurs), la manifestation des 22-23 novembre derniers, intitulée « Il était une fois dans le web : 20 ans d’archives de l’internet en France » a réuni plus de deux cent visiteurs, et eu par la suite d’excellentes retombées dans la presse généraliste.

Légende ci-après
Conférence « Il était une fois dans le web : 20 ans d'archives de l'internet en France »
© Emmanuel Nguyen Ngoc / BnF

Vidéos des conférences de la journée d'étude

La BnF y célébrait aux côtés de l’Ina, et avec le soutien de l’équipe ANR Web90 et de l’Université Paris-Lumière, plusieurs anniversaires majeurs : les 20 ans des collections de la fondation américaine Internet Archive, auprès de laquelle la BnF a acquis ses plus anciennes collections, les 10 ans de la loi DAVDSI, qui a institué le dépôt légal de l’internet, et les 5 ans de son décret d’application.

Une quarantaine d’intervenants issus du monde académique comme de l’économie du numérique se sont succédés pour dresser un panorama de l’archivage du web, des collections et outils mis à disposition de public et de l’activité de recherche passée et présente, dessinant de belles perspectives de collaboration. Des ateliers ont permis aux visiteurs de se familiariser avec les applications en salle de lecture.

La BnF a pris conscience rapidement de l’importance patrimoniale que revêtaient les contenus, souvent uniques, et volatils, qui y étaient échangés. Anticipant sur l’instauration du cadre juridique qui a inscrit l’archivage du web dans la continuité de ses autres missions de dépôt légal, elle a réalisé à partir de 1999, aux côtés d’institutions animées par la même volonté, des expérimentations.

La BnF établit depuis plusieurs années des listes de sites ressortissant du domaine français. Celles-ci s’élèvent aujourd’hui à environ 4,5 millions de sites, dont plus de 500 000 sont renouvelés chaque année. Ces sites font a minima l’objet d’une capture annuelle et, pour quelque 20 000 d’entre eux, sélectionnés par un réseau de bibliothécaires et de partenaires, d’une capture plus fréquente ou plus approfondie, selon les besoins.

La collecte est quotidienne, par exemple, pour une centaine de sites d’actualité, ainsi que 250 éditions de presse locale en version Abonnés, tandis que les sites liés à des événements tels que les élections vont être capturés de manière ponctuelle, aux dates des scrutins.

Elle est réalisée au moyen d’un logiciel, dit robot, qui, à la manière d’un internaute, explore méthodiquement les sites en suivant les liens. À la différence de ce dernier, le robot, à mesure de sa navigation, réalise une copie des éléments qui composent les pages et les emmagasine dans des fichiers containers. Au 31 décembre 2016, la BnF conservait 794 To de données, après déduplication et compression.

Pour assurer la protection du droit d’auteur et de la vie privée des personnes, les contenus archivés sont accessibles sur accréditation, dans les salles de recherche de la BnF et de ses partenaires en région. Les sites sont navigables, dans la limite des paramètres initiaux de collecte, dans l’application « Archives de l’internet » dont l’interface a connu des améliorations à l’occasion de l’anniversaire.

L’application propose désormais, en plus d’une recherche par l’URL du site (adresse de départ) et de parcours guidés conçus pour découvrir, sur un mode ludique, des sélections thématiques de sites, une fonctionnalité nouvelle de recherche plein texte dans les « Incunables » du web français, collections antérieures à l’an 2000. Plus attrayante et plus intuitive, la page d’accueil invite à flâner dans l’internet d’hier.

Des outils d’accès innovants ont également été développés, en partenariat avec les équipes de recherche du CNRS/ISCC Web90 et ASAP, débouchant sur la mise à disposition pour les chercheurs d’une plateforme dédiée, « Archives Web Labs ». Deux ensembles ont été mis en valeur, les « Incunables du web français », pour la période 1996-2000, et les collectes réalisées en 2015 en réaction aux attentats. Ce partenariat a notamment débouché sur la rédaction d’un parcours guidé consacré au web des années 1990 (http://www.bnf.fr/documents/web_annees_90_parcours.pdf).

Encourager les usages des archives de l’internet, sources incontournables pour nombre de disciplines, et favoriser l’émergence d’une communauté d’intérêt sur ce sujet en France, tels sont les objectifs que poursuit la BnF, déjà très active à l’international.