Le numérique
Consulter
Les rapports annexés
La BnF en chiffres
Télécharger

SPAR
Photo Patrick Bramoullé / BnF
La constitution des collections numériques s'appuie à la fois sur les chaînes de numérisation internes aux ateliers de la BnF et sur des prestataires externes. La numérisation concerne tous les types de documents, imprimés, presse ou documents spécialisés et audiovisuels. Elle est réalisée principalement dans le cadre de programmes spécifiques qui ont pour objectifs à la fois l'enrichissement de Gallica et, au niveau européen, d'Europeana, la sauvegarde de certains fonds dégradés (cf. chapitre 1) ou encore la réalisation de projets de recherche et de valorisation de fonds spécifiques, en particulier pour les documents spécialisés. Les documents imprimés numérisés sont désormais systématiquement convertis en mode texte (OCR : reconnaissance optique des caractères).
La numérisation des collections concourt à « l'hybridation » des collections, où coexistent désormais des documents physiques et des documents numériques. Elle conduit également à développer des services à distance spécifiques, modifie les modes de coopération de la BnF avec les autres bibliothèques et instituts de recherche, et transforme en profondeur les métiers en son sein. L'impact du numérique sur les organisations et les ressources humaines au sein de l'établissement fait par ailleurs l'objet depuis 2008 du projet ORHION (Organisations et ressources humaines sous l'impact opérationnel du numérique), devenu en 2010 un observatoire rassemblant des agents des différentes directions et délégations, doté d'un programme d'action annuel. Cet observatoire œuvre pour la mise en commun des expériences et des processus d'apprentissage dans le domaine du numérique.

Numérisation d'ouvrages
© L'IMAGE PRO / BnF
En septembre 2010, s'est achevée la phase de production de la dernière tranche du marché de dématérialisation des collections de la BnF dit « marché de masse » ou encore « des 100 000 » (volumétrie annuelle) notifié en 2007. Ce programme visait, sur trois ans, à la numérisation et à la conversion en mode texte (OCR) de 300 000 documents, grâce à un financement du Centre national du livre (CNL).
Au 31 décembre 2010, soit à deux mois de la fin du marché, 97% des objectifs en nombre de pages numérisées étaient atteints (les derniers mois du marché étant consacrés aux réfections).
| Nombre de pages | Nombre de documents | |
|---|---|---|
| Production 2010 | 13 137 779 | 130 045 |
| Production totale validée | 36 197 605 | 393 487 |
Dans le cadre de la coopération numérique entre bibliothèques, il a été décidé d'ouvrir la dernière tranche de ce marché aux pôles associés et autres bibliothèques partenaires. Après un premier test au mois d'août 2009, un nouveau type de convention de partenariat a été élaboré et une campagne de sélections a été réalisée, en étroite collaboration avec les cinq partenaires retenus : Bibliothèque Cujas, Bibliothèque de l'Institut national d'histoire de l'art, bibliothèques municipales de Lyon, Compiègne et Alençon. D'autres documents ont également été mis à disposition par des institutions proposant des sélections de volumes plus restreintes, mais intéressantes du point de vue documentaire (sociétés savantes, ministère des Affaires étrangères, Bibliothèque historique de la Ville de Paris, etc.). Au total, 918 000 pages, correspondant à 2 966 documents, ont été envoyées chez le prestataire. Les documents ainsi numérisés sont mis en ligne dans Gallica, assortis d'une mention de source individualisée et d'un environnement graphique personnalisé, assurant ainsi à la bibliothèque partenaire une visibilité forte. Celle-ci se voit remettre une copie numérique des documents sélectionnés, pour une valorisation locale, au plus près de ses publics, sur son propre site web.
Un nouvel appel d'offres pour la dématérialisation de documents issus de collections de la BnF et de bibliothèques partenaires a été publié en octobre. Ce marché présente des évolutions qualitatives significatives par rapport au précédent : numérisation en 400 dpi, numérisation couleur, OCR minimal garanti à 98,5%, OCR haute qualité pour 20% des documents et, pour la moitié de ces derniers, sortie en format e-pub.
Le programme quinquennal de numérisation de la presse (2005-2010) concernait quant à lui la numérisation de 31 titres, principalement des grands titres de l'âge d'or de la presse (IIIe République) : presse quotidienne nationale et, dans une moindre mesure, d'autres types de presse (titres régionaux, presse hebdomadaire). Le marché dédié s'est achevé en mars, avec un total de 1,6 millions de pages numérisées. 50 145 pages ont également été produites cette année en interne.
Pour les collections rares et précieuses, les programmes de numérisation affichent une grande cohérence quelles que soient les filières de production, dans les ateliers internes du département de la Conservation, comme en externe : continuité documentaire par rapport aux années précédentes (poursuite du traitement de certains fonds parmi les plus remarquables et précieux) et équilibre entre les différents types de documents. L'année 2010 a confirmé l'ambition de la Bibliothèque de donner davantage à connaître la richesse et la diversité de ses collections, au travers de ces programmes de numérisation et de la mise en ligne sur Gallica des documents numérisés.
Lancé en 2009, le premier marché de numérisation en grande quantité des collections spécialisées est l'occasion de numériser des corpus représentatifs des trésors de la BnF à partir des originaux. Le choix a été fait d'une installation du prestataire dans les locaux de la BnF, afin de limiter les déplacements des collections précieuses et de faciliter le suivi du marché. La numérisation et la préparation (sélection, catalogage, légendage, rédaction des documents d'accompagnement, etc.) des livres rares et des documents spécialisés, dans une perspective de numérisation en grand nombre, a constitué un changement important pour les départements concernés.
Le premier lot du marché concerne les documents originaux des collections spécialisées des départements de Richelieu, de la Bibliothèque de l'Arsenal et de la Bibliothèque-musée de l'Opéra. Le second lot, financé par le CNL, traite des imprimés précieux de la Réserve des livres rares, du département Droit, économie, politique et de la Bibliothèque de l'Arsenal. Les ouvrages sont choisis dans une perspective encyclopédique, du XVe au XXe siècle, en privilégiant les exemplaires illustrés ou annotés, les éditions originales, les possesseurs illustres.
Pour le premier lot, 31 381 documents numérisés à partir d'originaux ont été livrés en 2010, soit un total de 287 584 images, issus des départements des Estampes et de la photographie, des Manuscrits et de la Musique pour l'essentiel, mais aussi de ceux des Arts du spectacle et de la Bibliothèque-musée de l'Opéra.
Pour le deuxième lot, la numérisation de documents de la Réserve des livres rares est maintenant en production courante. Fin 2010, 12 090 documents ont été livrés soit un total de 278 234 images. Ont été numérisés à la fois des éditions originales et remarquables de la Réserve et des actes royaux du département Droit, économie politique (pour un quart). La programmation concerne prioritairement des éditions originales des grands classiques de la littérature française, dans les différents genres du roman (Rabelais, Mme de Lafayette, Fénelon, Laclos, Sade, Balzac, etc.) et de la poésie (La Fontaine, Baudelaire, Rimbaud), du théâtre (Corneille, Racine, Molière, Marivaux, Beaumarchais), de la prose de la pensée (Calvin, Montaigne, Pascal, les moralistes classiques, les grands penseurs du siècle des Lumières), de l'art oratoire (Bossuet). Par ailleurs, un certain nombre d'ouvrages ont été numérisés pour répondre à des demandes particulières liées à de grands projets de recherche bénéficiant du soutien de la BnF : numérisation des œuvres d'Ambroise Paré et de la médecine de son temps (projet dirigé par la Bibliothèque interuniversitaire de médecine), numérisation des œuvres de Descartes (projet dirigé par l'université de Caen).
En plus de programmes de numérisation effectués à partir des documents originaux, un marché a été lancé en septembre 2009 pour la numérisation de microformes (microfilms, microfiches, diapositives, ektachromes, etc.) reproduisant des documents des collections spécialisées de la BnF. Ce marché, dont la production a démarré en février 2010, comporte deux filières :
numérisation noir et blanc ou niveaux de gris de microformes au trait ou en demi-teintes représentant essentiellement des manuscrits, partitions, imprimés exceptionnels, etc.
numérisation niveaux de gris ou couleurs de microfilms demi-teintes ou couleurs et de supports souples (microfiches monovues, cartes à fenêtre, diapositives, ektachrome, etc.) couleurs ou demi-teintes représentant majoritairement de l'iconographie et à la marge des manuscrits en couverture complète. Dans le cadre de cette filière, les images seront recadrées, retraitées (colorimétrie, contraste, prise en compte de l'échelle de réduction…) si nécessaire et foliotées.
847 032 pages ont été validées à la fin 2010, en conformité avec la programmation prévue.

Atelier de Sablé-sur-Sarthe
Photo Bernard Dulac / BnF
Les activités de numérisation des ateliers de la BnF, conduites par le département de la Conservation, connaissent une croissance continue, avec une augmentation de 18% par rapport à l'année 2009.
| 2008 | 2009 | 2010 | 2009/2010 | |
|---|---|---|---|---|
| Numérisation réalisée en interne (nombre de vues) |
802 590 | 1 194 320 | 1 412 629 | + 18% |
Pour la première année, la production d'images numériques dépasse celle de microfilms dans les ateliers internes (en nombre de vues). Ce total représente 45 353 documents numériques.
Enfin, la sauvegarde dérivée, qui consiste à sauvegarder intégralement un document dont une reproduction partielle a été demandée par un client auprès du département de la Reproduction, a permis de reproduire 530 737 pages et 19 591 images sur support numérique.
Un marché de conversion par OCR des collections d'imprimés Gallica de la BnF a été notifié en juillet 2009. Ce marché doit permettre d'absorber en grande partie le rétrospectif des documents numérisés présents sur Gallica et publiés de 1750 à 1940. Il comprend en outre une nouvelle prestation permettant de produire des documents au format e-pub pour lecture sur supports nomades.
Fin 2010, ce sont 1 059 584 pages en OCR brut et 627 034 en OCR haute qualité qui étaient produites. La majorité des documents produits en 2010 ont été validés, la production fournissant la qualité attendue.
La définition d'une stratégie de pérennisation des données numériques que produit et collecte l'établissement est une composante primordiale de la politique numérique de la BnF.
Pour assurer cette pérennité, la BnF développe un Système de préservation et d'archivage réparti (SPAR), dont la maîtrise d'œuvre est assurée par le département des Systèmes d'information de la BnF. Ce système n'est pas une simple sauvegarde ou un dispositif de rangement définitif, mais un magasin virtuel vivant qui assure la pérennité des données et de leur accès, ainsi que la préservation de toutes les informations nécessaires à leur compréhension et à leur utilisation. SPAR permettra de conserver les données numériques de différentes filières : numérisation de conservation, audiovisuel et multimédia, numérisation de consultation (Gallica), dépôt légal (collectes larges et ciblées du web), production administrative et technique, dons et acquisitions, tiers archivage. L'ensemble des collections numériques de la BnF sera dans SPAR en 2011. En parallèle à ces intégrations, le système continuera à évoluer.
Le calendrier de réalisation de SPAR a été respecté et le système est désormais opérationnel. Les chaînes de migration stockent la production courante depuis juin 2010 dans SPAR suivant la norme OAIS. Depuis cette date, des modules complémentaires ont été livrés et mis en œuvre, en particulier la phase 1 du tiers-archivage (à des fins de coopération numérique : cf. 2.2.2) et le module administration avancée. Au deuxième semestre, le développement de la filière Audiovisuel et celui de la première partie de la filière du dépôt légal du web ont été lancés pour une réception en janvier 2011.
Deux nouveaux marchés ont été passés en 2010 : achat de matériel de stockage disques et achat de bandes de 1 To. Ces deux marchés avaient pour objectif de remplacer et renforcer l'infrastructure existante, de compléter le stockage sur bandes de la production 2010 et d'introduire dans l'architecture un stockage disque à faible coût pour avoir toujours en ligne les masters des documents numérisés. Le financement 2010 de ces deux marchés a été possible grâce à des crédits CNL pour un montant de près de 3 millions €.
Si le département des Systèmes d'information est l'opérateur technique, la gestion de la collection numérique est partagée avec les acteurs bibliothéconomiques : experts de préservation, responsables de filières, gestionnaires de collection numérique.