L’Université de Lille − sciences humaines et sociales accueille début juillet une grande conférence internationale, ETD2016, consacrée à la diffusion et à la numérisation des thèses. L’occasion de faire le point sur la transmission des données de la recherche.

Promouvoir la diffusion des thèses : c’est l’un des objectifs depuis une vingtaine d’années d’un consortium d’universités et d’institutions qui organise tous les ans une conférence internationale sur le sujet (Electronic Theses and Dissertations − ETD). Pour la première fois, cet événement a lieu en France, à Lille. Le consortium a choisi l’Université de Lille − sciences humaines et sociales pour l’accueillir, et ce n’est pas un hasard. L’université travaille en effet depuis de nombreuses années sur cette problématique, avec la particularité de croiser les approches de ses différents acteurs (service commun de la documentation – SCD −, atelier national de reproduction des thèses – ANRT −, groupe d’études et de recherche interdisciplinaire en information et communication – Geriico − , école doctorale). Des acteurs qui ont récemment mené une enquête sur les données présentes dans les thèses en sciences humaines et sociales, préconisant dans un livre blanc de les valoriser.

Car les thèses sont des mines d’informations ultra-spécialisées, capitales pour la veille et l’innovation. Mais encore faut-il les diffuser. Cela passe par l’obligation de leur dépôt légal sous forme électronique, ce qui est désormais le cas dans la majeure partie des universités françaises. Côté numérisation, il reste plusieurs milliers de thèses encore déposées chaque année sous format papier. Le Ministère se donne encore deux ans pour arriver au 100% numérique (en 2018). Côté mise en ligne, la tendance est à la nette amélioration, même si certains docteurs restent réticents, pour diverses raisons (voir encadré Mise en ligne des thèses). Le moteur de recherche des thèses françaises theses.fr recensait ainsi environ 60 % des thèses soutenues en ligne en 2014 contre 13 % en 2006. À terme, l’État devrait rendre obligatoire la diffusion des thèses soutenues au sein du réseau des universités, sauf exception motivée, par la confidentialité par exemple (voir notamment l’art. 25 du récent arrêté doctoral applicable en septembre).

La prochaine étape, c’est celle à laquelle vont réfléchir les participants à la conférence : les données. Car au-delà de la diffusion de la thèse, il y a celle des données qu’elle contient, très riches mais souvent peu visibles car reléguées dans des annexes (l’université sensibilise les doctorants à ces questions). Un enjeu essentiel qui rejoint celles de la diffusion des données de la recherche en général, dont une récente enquête menée à l’université a posé la problématique. Toutes ces questions, qui évoluent rapidement, sont au cœur de cette 19e édition de l’ETD.

La conférence s’ouvrira d’ailleurs sur deux interventions qui vont contextualiser les enjeux: celle de Laurent Romary, directeur de recherche à l’INRIA, qui va s’attarder sur le contexte politique français, ce qu’on fait dans le domaine de la science ouverte et sur les enjeux engagés dans la loi numérique (et notamment son article 9). Ron Dekker, qui pilote la politique néerlandaise de l’open access dressera quant à lui le bilan et les perspectives à l’échelle européenne. Les Pays Bas, qui président ce semestre le Conseil de l’Union européenne, ont fait de la “science ouverte” une priorité de leur mandat.

Une autre question abordée sera de savoir comment diffuser ces données : comment les stocker et en garantir l’accès ? comment les transmettre à la société civile, aux acteurs économiques ? Enfin, l’accent sera aussi mis sur la déontologie. «Un expert, le professeur Paul Sturges, indique Joachim Schöpfel, va s’interroger sur les questions éthiques que suscite l’exploitation et la réutilisation des données et de l’information produites par les hommes »

ETD2016

Ce sont la directrice du SCD, Isabelle Westeel et le directeur de l’ANRT, Joachim Schöpfel , également chercheur au Geriico, qui ont porté la candidature lilloise à l’organisation de l’ETD2016. Les inscriptions à cet événement sont toujours en cours. Il se déroulera du 11 au 13 juillet. Les interventions seront enregistrées et diffusées sur la webtv de Lille 3, et les communications seront déposés dans le portail Hal.

Mise en ligne : des modalités mal connues

Une des premières raisons invoquées pour différer la mise en ligne d’une thèse est la nécessité d’en garder le contenu inédit jusqu’à sa publication chez un éditeur. Cette dernière a lieu souvent un an à deux ans après la soutenance et dans une version retravaillée. « D’autres publications tirées du travail de thèse imposent parfois un embargo sur la publication des résultats, et donc de la thèse » précise Cécile Malleret, du SCD. Un autre problème vient des thèses co-financées par une entreprise ou un organisme extérieur, peu enclins à rendre publiques des informations internes. « L’expérience a été faite dans notre département au niveau des mémoires de master, explique Joachim Schöpfel, et on s’est heurté immédiatement à des refus de la part des organismes d’accueil de nos stagiaires. Et ce ne sont pas nécessairement des entreprises ou des secteurs sensibles comme la défense ou de la sécurité… : des administrations publiques ont aussi refusé. » Même si ces réticences sont légitimes, elles traduisent en général une méconnaissance de la réglementation, qui a mis en place depuis longtemps des dispositifs pour leur répondre : diffusion partielle de la thèse (les informations sensibles étant par exemple regroupées dans une annexe restant confidentielle), période d’embargo avant diffusion en cas de projet de publication ou en cas de risque d’invalidation d’un brevet (cf. p. 16 du Guide du doctorant).

Pour aller plus loin:

La publication scientifique: du papier au numérique

En 2020, toutes les publications scientifiques européennes publiques seront libres d’accès

Tribune libre à Laurent Romary, directeur de recherche INRIA: Open access, en avant!