PAGE ACCUEIL

Entretien avec Michel Bernard et Chiara Mainardi

29 Mars 2019

Entretien avec Michel Bernard et Chiara Mainardi

Quelles sont les activités du centre Hubert de Phalèse dans le domaine des humanités numériques ?

Michel Bernard

Hubert de Phalèse est un centre de recherches créé par Henri Béhar au début des années 1990, spécialisé dans le domaine qui portait encore à l’époque le nom d’« études littéraires assistées par ordinateur ». Il tire son nom d’un abbé du XVIIe siècle qui a publié une concordance de la Bible, ce qui est une manière d’inscrire le numérique dans le prolongement de la philologie. Hubert de Phalèse a repris et rationalisé des concordances établies depuis le XIIIe siècle. Surtout, il a rédigé une préface qui demeure étonnamment actuelle, aujourd’hui, dans la réflexion sur les concordances. Le centre est inclus dans le laboratoire THALIM. Il anime depuis 2013 le séminaire « Le littéraire du papier au numérique », qui explore toutes les facettes des humanités numériques dans le domaine littéraire : l’étude de corpus littéraires, l’édition numérique et même la création littéraire numérique. En ce qui me concerne, je coordonne également, avec Baptiste Bohet, un projet intitulé « Statistiques et représentations graphiques des données textuelles de cent “grands romans” de la littérature francophone », au sein d’un programme de recherche interdisciplinaire sur les « Usages des patrimoines numérisés » (UDPN). Le réseau UDPN étudie des formes de patrimonialisation très différentes, dans le domaine de la littérature, du cinéma, de l’audiovisuel, du théâtre, des musées, etc., et réfléchit à l’utilisation différenciée du patrimoine, une fois qu’il est numérisé. En littérature, les implications sont nombreuses : par exemple, lit-on de la même manière une édition papier et une tablette ?

Comment s’insèrent les humanités numériques dans l’université Paris 3 ?

Chiara Mainardi

À Paris 3, une quarantaine de projets sont liés aux humanités numériques. Ils sont ou ont été pour la plupart soutenus par un financement de l’ANR ou de l’IDEX. Les projets sont coordonnés par des chercheurs linguistes, comme Jeanne-Marie Debaisieux dans le cas du projet ORFEO, ou par des littéraires, qui privilégient généralement l’édition et la patrimonialisation comme le projet ERHO, « Renaissances d’Horace », de Nathalie Dauvois, même si la fouille de texte n’est pas absente. D’ailleurs, il n’y a pas de frontière entre l’édition et la fouille de texte, parce qu’une fois que le corpus est codé et structuré, on peut envisager des traitements auxquels les chercheurs ne pensaient pas a priori. Ma mission a consisté à dresser un état des lieux des ressources et des besoins en matière de valorisation des bases de données au sein des différentes unités de recherche. Les corpus de l’université qui relèvent du numérique peuvent se regrouper en différents groupes : les corpus en XML-TEI (les projets CoDIF de Gabriella Parussa, E-CALM de Claire Doquet, etc.), les corpus de données médias (audio ou vidéo, avec ou sans transcriptions, comme le projet ENFLANG d’Aliyah Morgenstern), les corpus de dictionnaires comme la collection PANGLOSS, les corpus de PDF en attente d’océrisation et toute une série de corpus hybrides. Des bases de données d’images ont également été constituées, par exemple, en linguistique, dans le cadre du projet Genre Brefs d’Irmtraud Behr et Florence Lefeuvre, et dans les départements d’études cinématographiques et de théâtre. Nous réfléchissons à la création d’une plateforme de gestion et de diffusion des données en ALL-SHS, qui rendrait ces corpus accessibles à la communauté des chercheurs. Parallèlement, le DiRVED a développé un programme de formation tout au long de l'année et nous organisons, à des fins de sensibilisation, des journées d’études comme celle qui a eu lieu en janvier dernier sur les « Corpus numériques et bases de données (littérature et linguistique) ». Une autre journée d'études est prévue pour la rentrée 2019. Je me mets désormais à la disposition des chercheurs pour la mise en ligne des textes et l’analyse des données. Je finalise également une étude sur les besoins des chercheurs en humanités numériques et accompagne la création d’un groupe de travail sur la place du numérique dans le monde la recherche.

Michel Bernard

Dans le même temps, l’offre de formation s’est développée à Paris 3, avec un parcours de Licence, qui se rattache aux cursus de lettres et de sciences du langage et qui permet aux étudiants de s’initier au code et aux problématiques des humanités numériques. Dès l’année prochaine, le Master « Humanités numériques », dirigé par Ioana Galleron, offrira un prolongement à cet enseignement et il sera désormais possible de suivre une formation en humanités numériques de cinq ans. 

Quel est votre regard sur l’évolution des humanités numériques littéraires ?

Michel Bernard

Mon sentiment est que les littéraires se sont enfin emparés de la question. C’est du moins ce que nous essayons de démontrer, avec Baptiste Bohet, dans Littérométrie. Outils numériques pour l'analyse des textes littéraires (2017). Il est vrai que le TAL représente une tradition ancienne, mais la démarche spécifiquement littéraire existe, elle aussi. On peut analyser la singularité d’un texte, dans le domaine de la stylistique assistée par ordinateur, en textométrie. Dans le projet « Statistiques et représentations graphiques des données textuelles de cent “grands romans” de la littérature francophone », chacun des romans est examiné dans son rapport avec les 99 autres, de manière à faire ressortir des particularités. Je travaille également sur la notion de nullax, formée d’après celle d’hapax, qui interroge l’absence d’un terme dans un texte, relativement à sa présence dans le reste d’un corpus donné. Je me suis attaché en particulier aux cas de Breton et d’Apollinaire. Le nullax permet de révéler négativement la singularité d’un texte. Il constitue un phénomène statistique avéré, dont on ne peut tirer parti que par l’analyse littéraire. Enfin, il y a peut-être encore un domaine dans lequel nous n’employons pas suffisamment les humanités numériques, c’est l’étude des textes courts, qui est une des caractéristiques des études littéraires (close reading).

Quelle est la valeur d’un résultat dans une recherche en humanités numériques ?

Michel Bernard

Dans le domaine des humanités numériques, on peut adopter deux attitudes : choisir de vérifier des hypothèses dans un corpus constitué le plus souvent ad hoc, dans une démarche de science expérimentale ; choisir d’explorer un corpus sans a priori, en essayant de voir ce qu’il propose de remarquable. Cette démarche – je ne sais pas s’il faut parler de sérenpidité – apporte régulièrement des résultats satisfaisants, mais elle est contraignante car elle implique de modifier son rapport à la technologie. Et puis il y a le problème de l’intelligence artificielle, du deep learning et de la « boîte noire ». Je considère que c’est un problème spécifique, qui mérite d’être traité à part. Le plus souvent, les recherches en humanités numériques portent sur des corpus structurés et contrôlés et utilisent des outils statistiques basiques, dont il est possible de rendre compte.

Quelle orientation actuelle du domaine retient votre attention ?

Michel Bernard

Les ontologies représentent aujourd’hui, me semble-t-il, le défi le plus considérable. C’est un domaine dans lequel les bibliothèques avancent très vite et je ne suis pas sûr que les chercheurs en lettres aient pris la mesure de ce tournant-là. L’enjeu de formation est très important, parce que la recherche en bibliothèque va être considérablement modifiée. Et avec l’idée qu’une œuvre n’est qu’une manifestation d’une pensée à un moment donné, c’est une nouvelle vision de la littérature qui s’annonce et qui demande à être assimilée et pensée par les chercheurs.

Propos recueillis par Romain Jalabert.