L’Atelier national de reproduction des thèses numérise le patrimoine scientifique de divers établissements.

« Beaucoup d’universités ont des livres anciens, rares ou fragiles, dont elles souhaitent diffuser une copie numérique afin de les préserver », explique Joachim Schöpfel, directeur de l’Atelier national de reproduction des thèses. Forte de plus de quarante ans d’expérience en numérisation des doctorats, l’institution, située sur le campus de l’université à Pont de Bois, s’est orientée depuis quelques années vers celle du patrimoine écrit.

Joachim Schöpfel

Joachim Schöpfel

Comme l’explique l’ancien chercheur en psychologie de l’université de Hambourg, passé aux sciences de l’information il y a vingt-cinq ans, « au départ, l’ANRT est une imprimerie ». C’est ce que rappelle fièrement la presse offset qui en orne l’entrée (et qui, dit-on, fonctionne encore). L’atelier est en effet créé en 1971 pour faciliter la reproduction et la diffusion des thèses. Mais cette mission se double rapidement d’une autre, celle de la préservation de ces dernières. En France, les thèses sont conservées par les bibliothèques de l’université de soutenance. Contrairement aux livres, il n’y a pas de dépôt légal. Avant les années 1970, il n’existe donc aucune autre copie de ces thèses. Si la bibliothèque brûle, c’en est fini des efforts et longues années de recherche des valeureux doctorants. Une perte inestimable.

Un risque qui pousse le gouvernement d’alors à faire le choix d’un mode d’archivage rustique, mais extrêmement pérenne : la microfiche, sorte de cousine du microfilm, qui permet de reproduire plusieurs centaines de pages sur une seule petite fiche transparente. Ce dispositif est largement utilisé par les grandes bibliothèques comme celle du Congrès aux États-Unis. Car la microfiche n’est pas difficile. Une pièce fermée et correctement ventilée suffit. Nul besoin d’un subtil contrôle de la température et de l’hygrométrie.

Numérisation de livres anciens

Aujourd’hui, la numérisation des thèses à l’ANRT est très bien rodée (voir les photos en bas de cet article). Mais elle passe par une étape qui à terme, pourrait disparaître : celle de la numérisation des exemplaires papier. L’impression des thèses pourrait en effet se faire à partir du fichier produit par le doctorant. C’est pourquoi l’ANRT, depuis quelques années, se réoriente. Ses personnels, en effet, pratiquent depuis longtemps la numérisation de thèses anciennes, dont il n’existait pas de copie sur microfiches. Ces activités se sont étendues peu à peu aux livres anciens conservées par diverses institutions. Aujourd’hui, l’université de Liège, Paris 8 ou Lille 1 font appel à l’ANRT pour numériser leurs collections.

« D’abord, nous réalisons un état des lieux des ouvrages, explique Jérémie Berthe, chargé de la numérisation des collections anciennes, pour savoir comment ils vont supporter la numérisation. ». Un scanner spécialisé flambant neuf, d’une valeur de plusieurs dizaines de milliers d’euros, peut traiter des livres, feuilles volantes et des documents transparents, jusqu’à 80 centimètres de large environ (format A1). Il peut scanner à plat, ou des livres partiellement ouverts pour éviter d’abîmer la reliure. « Comme dans un appareil photo, il faut régler l’optique » explique Jérémie Berthe, avec un capteur CCD de très grande résolution.

Un projet devrait permettre de numériser les milliers de plaques de verre du muséum d'histoire naturelle de Lille, des clichés anciens ayant trait à la géologie et la paléontologie.

Un projet devrait permettre de numériser les milliers de plaques de verre du muséum d’histoire naturelle de Lille, des clichés anciens ayant trait à la géologie et la paléontologie.

Un gros travail de traitement d’image est ensuite réalisé pour, entre autres, redresser la page si elle n’était plate lors de la numérisation, et travailler le rendu des couleurs. « Stocker et délivrer un très grand nombre de fichiers de haute résolution en couleur a un coût, indique Jérémie Berthe. Les institutions choisissent parfois de ne diffuser que des versions noir et blanc, en basse résolution.  » L’ANRT conserve toutefois la copie couleur en cas d’évolution à l’avenir.

La numérisation ne se borne pas à fournir des images des pages du livre. Si besoin, l’ANRT peut également fournir des fichiers structurés, c’est-à-dire avec index, table des matières, etc. Les personnels de l’ANRT entrent aussi des métadonnées descriptives (date, auteurs, etc.) et en ajoutent d’autres (type d’appareil utilisé pour la numérisation, traitement d’image, etc.) L’ANRT réalise également la reconnaissance automatique de caractères afin de permettre la recherche de mots dans le document. Comme la plupart des entreprises de numérisation, elle livre un document dont au minimum 95 % des caractères sont reconnus. « Les derniers pour-cents sont les plus coûteux, explique Joachim Schöpfel, car ils demandent des vérifications manuelles. Ces opérations sont souvent sous-traitées à l’étranger. » Toutes ces opérations permettent au service de traiter « environ deux mille pages par jour, explique Jérémie Berthe, mais cela dépend beaucoup des ouvrages  : dimensions, fragilités éventuelles, etc. »

Pour la recherche aussi

Une feuille des archives de Carlos Denis Molina

Une feuille des archives de Carlos Denis Molina

L’ANRT numérise également des documents pour des projets de recherche, notamment ceux qui se situent au croisement de l’informatique et des sciences humaines et sociales (les humanités numériques). C’est actuellement le cas des archives des deux auteurs hispanophones, celles de l’écrivain andalou José Mora Guarnido, un ami de Garcia Lorca exilé à Montevideo, et celles d’un grand poète, écrivain et dramaturge uruguayen du XXe siècle, Carlos Denis Molina. Mené par une équipe interdisciplinaire, ce projet va consister entre autres à étudier avec précision les différentes étapes d’élaboration de leurs textes (data mining), une approche encore rare dans la littérature hispanique.

Pour en savoir plus :