PAGE ACCUEIL

Entretien avec Karine Abiven et Gaël Lejeune

28 Septembre 2019

Entretien avec Karine Abiven et Gaël Lejeune

Pouvez-vous nous présenter votre projet et notamment le travail qui a été réalisé à partir du corpus des mazarinades ?

Karine Abiven

Nous travaillons sur un ensemble d’environ 5500 pièces, les mazarinades : si le titre désigne à l’origine un écrit contre le cardinal Mazarin, on utilise souvent cette étiquette en un sens plus large pour désigner toutes les pièces imprimées entre 1648 et 1653 et ayant trait à la Fronde. Il s’agit d’un ensemble hétérogène, qui rassemble aussi bien des vers que des pamphlets en prose, des actes officiels et de nombreuses parodies qui brouillent le repérage générique. Il se caractérise également par une certaine variété linguistique (français dont l’orthographe n’est pas encore fixée, latin, italien ou patois). En outre, beaucoup de ces pièces sont anonymes et toutes ne sont pas datées de manière certaine : les métadonnées sont donc lacunaires. Du point de vue des humanités numériques, ce corpus est un bon point de départ pour une collaboration interdisciplinaire, où le chercheur en lettres ne serait pas seulement celui qui fournit les données et celui en informatique les outils : on cherche à concevoir ensemble les manières d’exploiter ces données, en cherchant notamment à identifier le grain d’analyse le plus pertinent. L’une des difficultés à laquelle nous faisons face est l’accès aux données. C’est pourquoi nous travaillons en collaboration avec la Bibliothèque Mazarine, qui possède une collection de référence de ces libelles. Dans le cadre d’une thèse financée par la région Ile de France, Jean-Baptiste Tanguy, qui travaillera sous la direction de Glenn Roe au Labex OBVIL, sera accueilli par la Bibliothèque Mazarine. Tout en suivant le chantier qui s’ouvre de la numérisation en mode image de ces mazarinades, cofinancé par l’OBVIL, il travaillera surtout sur l’obtention de données en mode texte de qualité par des solutions économiques, sans passer par la retranscription manuelle.

Quels sont les enjeux posés par l’exploitation numérique des textes anciens ?

Gaël Lejeune 

Il y a un problème, a priori simple du point de vue humain, qui est de conserver les données telles quelles. La numérisation consiste à transformer une image graphique en une série de caractères, jusqu’à arriver à l’observable que l’on peut traiter informatiquement. Or les textes anciens posent des problèmes car ils nécessitent un pré-traitement important pour être débruités. En effet, pour les textes du XIXe ou du XXe, le taux de reconnaissance automatique des caractères dépasse largement 90%, alors qu’il se situe autour de 70-80%, voire moins, pour les textes plus anciens. Le pré-traitement, qui consiste à travailler en amont sur les données pour faciliter leur traitement automatique, est un processus extrêmement coûteux. En outre, dans certains cas, le nettoyage d’un texte dans la phase de pré-traitement peut faire perdre certains indices aux chercheurs. Il est nécessaire de se poser la question de ce que l’on veut faire et des moyens nécessaires pour y parvenir : pour obtenir des résultats sur des textes anciens, nos recherches nous ont montré qu’il n’était pas nécessaire de passer systématiquement par une phase de pré-traitement pour obtenir des résultats. C’est pourquoi nous avons pris le contre-pied de l’approche classique en travaillant aussi directement sur le texte brut : en prenant les chaînes de caractères comme observables. Réaliser une édition numérique de l’intégralité de cet ensemble de 5500 pièces représenterait un temps considérable, d’autant que les économies d’échelles ne sont pas possibles : produire 200 pièces représente exactement deux fois plus de temps qu’en produire 100. Or le risque, avec une telle approche, c’est que cette phase, longue et coûteuse, de production du corpus entrave le passage aux étapes suivantes. Nous avons donc opté pour une approche différente : nous travaillons déjà sur le corpus dans sa masse, via les données océrisées très bruitées de Gallica. Nous avons pris le parti d’aller vers la numérisation de qualité d’un petit nombre de pièces en parallèle, car les deux approches ne sont pas incompatibles : enrichir le corpus sera peut-être utile pour d’autres besoins qui pourraient intervenir par la suite.

Quelles sont les prochaines étapes du projet ?

Karine Abiven

Nous aimerions que les premiers textes mis à la disposition du public soient ceux qui nous viennent d’auteurs connus du siècle, comme Scarron ou le cardinal de Retz. Cela devrait intéresser plus de public et surtout, cela pourrait permettre d’établir des sous-corpus plus cohérents, ne serait-ce qu’en termes d’attribution, et peut-être de réussir à affiner les outils pour comparer les textes. Nous envisageons aussi un travail sur leur visualisation, par exemple en travaillant sur la mise en réseau des écrits, en particulier de ceux qui se répondent : pouvoir saisir visuellement les différents épisodes polémiques présente selon nous un intérêt réel, car il est pour le moment complexe d’en prendre la mesure s’agissant d’un ensemble si important d’écrits disparates.

Gaël Lejeune

On se place dans la lignée d’une interrogation classique en humanités numériques en proposant des modes de distant reading, c’est-à-dire une distance permettant d’identifier des éléments qu’on ne peut pas voir grâce à une lecture classique. Cela suppose toutefois un travail pour sélectionner ce sur quoi on va porter son attention (cela peut être les mots, les caractères, les noms de personnes, etc.). Mais à quel moment est-on suffisamment éloigné pour voir quelque chose qui n’est pas visible autrement ? Il faut aussi toujours avoir à l’esprit le fait qu’en adoptant un certain type de lecture, on prend le risque de perdre des observables qui sont peut-être par ailleurs utiles.

Karine Abiven

Avant d’arriver à cette visualisation en réseau, nous devons bien structurer les données et surtout les métadonnées, ce qui est difficile étant donné qu’elles ne sont pas stables. En nous appuyant sur la toute nouvelle « Bibliographie des Mazarinades » en cours d’établissement par les conservateurs de la Bibliothèque Mazarine, nous sommes en train d’établir une liste de quelques centaines de pièces datables, dont l’auteur est connu et pour lesquelles le réseau polémique dans lequel elles s’inscrivent est identifiable. À terme, lorsque la numérisation en PDF aura avancé, l’objectif est qu’on puisse accéder directement au fac-simile numérique par un lien hypertexte qu’on aura inséré dans une visualisation chronologique des références, par exemple.

Quels prolongements envisagez-vous ?

Karine Abiven

De mon point de vue, si nous arrivions à apporter une manière d’océriser plus efficacement les textes du XVIIe, bien au-delà des mazarinades, ce serait déjà une victoire importante. Il en va de même pour la tokenisation et lemmatisation. Il faudrait pouvoir étendre ces méthodes à d’autres écrits contemporains : les mazarinades sont intéressantes surtout dans la mesure où on les fait résonner avec ce qui les entoure. Dès la phrase d’établissement du corpus, il faudra donc réfléchir à son interopérabilité.

Gaël Lejeune

Dans la mesure du possible, nous aimerions mettre l’ensemble des données que nous aurons obtenu à disposition, afin que d’autres puissent entraîner leurs outils, reproduire les expériences et critiquer les résultats. L’accès aux données est important, même s’il est coûteux de mettre les textes à disposition en ligne en répondant à tous les besoins des utilisateurs, qui voudront par exemple pouvoir consulter les textes, les télécharger, les utiliser dans un logiciel de textométrie. Or le seul moyen de pérenniser ce travail est, à mon sens, de mettre toutes les données en accès libre. Pourtant, la mise à disposition des données, notamment si elles ont été coûteuses à obtenir, n’est pas encore une approche naturelle, même si un changement important est en train de s’opérer. Par ailleurs, l’interopérabilité suppose aussi la mise à disposition sur des formats simples, y compris, parfois, un format texte lisible simplement sur le bloc-notes : les métadonnées sont très utiles, mais il ne faut pas perdre de vue la donnée elle-même, et donc l’accès au texte.

Propos recueillis par Marguerite Bordry