PAGE ACCUEIL

Entretien avec Claude Mussou et Thomas Drugeon

19 Avril 2017

Entretien avec Claude Mussou et Thomas Drugeon

Claude Mussou est cheffe du service Inathèque. Thomas Drugeon est responsable du dépôt légal du web à l’Ina. Ensemble, ils nous présentent les services offerts par l’Inathèque aux chercheurs et nous expliquent les enjeux de l’archivage des contenus audio et vidéo et des sites web en rapport avec l’audiovisuel.

L’Inathèque est le service de consultation des collections de l’Ina à des fins d’étude et de recherche. Pourriez-vous tout d’abord nous présenter ces archives, leurs origines, la période qu’elles couvrent, les types de contenu concernés ?

Claude Mussou

La création de l’Ina date de 1974 : l’Institut est une des sociétés qui naissent de l’éclatement de l’ORTF, sa mission essentielle étant alors l’archivage des productions audiovisuelles à des fins de réutilisation professionnelle. Suite à la disparition du monopole public et la naissance de chaînes privées (Canal plus, M6, la privatisation de TF1…), on a pris conscience qu’il y avait une partie du patrimoine audiovisuel national qui risquait d’échapper à la conservation patrimoniale et de tomber dans l’oubli, puisque l’Ina ne conservait, à des fins de réutilisation professionnelle, que ce qui était diffusé par les chaînes publiques. C’est pour cela qu’en 1992 le dépôt légal a été étendu à la radio et à la télévision. L’Inathèque a été créée dans ce contexte, en 1995, d’abord sous une forme un peu expérimentale, avec un accueil des chercheurs dans des locaux que nous avions rue de Patay, avant notre installation en bibliothèque de recherche de la BNF en 1998.

Outre la conservation patrimoniale, l’ambition est de susciter et d’accompagner des travaux de recherche sur et à partir de sources encore inexploitées. Au delà des sept chaînes de télévision hertziennes et des cinq chaînes nationales de Radio France archivées depuis 1995, le périmètre du dépôt légal s’est progressivement étendu à compter de 2001 avec la mise en place d’un système de collecte et captation de flux totalement numérique et automatique. À présent, 24 heures sur 24, 7 jours sur 7, nous collectons tout ce qui est diffusé par 103 chaînes de télé et 66 radios.

En outre, les collections que nous rendons disponibles couvrent également toutes les archives radio et télé numérisées de la période antérieure au dépôt légal depuis la création de chacun des médias, c’est-à-dire les années 30 pour la radio et les années 50 pour la télé. Nous avons également le fonds dit « des actualités françaises », avec notamment les « archives de guerre », qui regroupent une des collections des actualités cinématographiques diffusées dans les cinémas depuis l’avant-guerre jusqu’en 1968. Ces collections sont enrichies par des fonds tiers versés dans le cadre de donations ou mandats qui viennent éclairer et compléter les flux de la radio et de la télévision (par exemple, des séries d’entretiens patrimoniaux ou d’archives orales, ou encore les captations de spectacles vivant avec les collections des théâtres nationaux ou de l’Opéra de Paris, le fonds de création audiovisuelle contemporaine, les films primés du Festival de films de Femmes de Créteil, des collections d’émissions enregistrées de « radios pirates » ou radios libres, etc.). Enfin, l’Ina a contribué à la sauvegarde de certaines archives audiovisuelles provenant d’autres pays (archives d’Afghanistan, du Cambodge, fonds de presse filmée de Cuba, fonds enregistrés des procès Rivonia où ont comparu pour sabotage Nelson Mandela ainsi qu’une dizaine de dirigeants de l’ANC, ou le fonds « Memoria Abierta » de témoignages enregistrés sur la dictature argentine, etc.). À la marge de la radio et de la télévision, tous ces fonds audiovisuels offrent également un éclairage particulier pour écrire l’histoire de nos sociétés contemporaines.

En 2006, la loi du dépôt légal s’est élargie aux contenus publiés sur le web. Il a été décidé que cette mission serait partagée entre la BNF et l’Ina. En cohérence avec la nature de ses collections, l’Institut a en charge la collecte des contenus issus du web qui sont de près ou de loin liés à l’écosystème audiovisuel : des sites web de chaînes, de programmes, de personnalités de la radio et de la télé, des blogs de fans, des web radios, web TV, web documentaires, web series… Petit à petit, cet archivage s’est étendu à d’autres types de dispositifs éditoriaux : des plateformes de publication de vidéos en ligne, des tweets, bientôt des contenus publiés sur Facebook. En termes de volume, c’est beaucoup…

Thomas Drugeon

Il y a 14 000 sites, à peu près 12 000 comptes Twitter et un peu moins de 10 000 comptes d’auteurs de vidéos sur les différentes plateformes de user-generated content – YouTube, Dailymotion, etc. Cela représente 56 milliards d’éléments (c’est-à-dire des URL distinctes, des tweets), avec 10 milliards d’éléments supplémentaires par an. Ce sont des données qui sont connectées entre elles de manière souvent assez complexe et qu’il faut donc pouvoir rejouer dans leur contexte de publication afin de permettre à l’usager qui vient consulter ces collections d’avoir une vision du média tel qu’il a été publié et de connaître la retombée de ce média dans les réseaux sociaux, sur les plateformes de vidéo, sur le web, à la télé. On essaie de tendre de plus en plus vers une espèce d’accès global pour l’usager.

Quelle est la spécificité de l’Inathèque par rapport aux autres services de l’Ina ?

Claude Mussou

Il y a aujourd’hui trois entrées principales dans les collections de l’Ina : le site ina.fr a pour vocation de valoriser une partie des collections de l’Ina dont les droits ont été libérés pour leur publication sur ce site avec un système de reversements aux ayants-droit des revenus générés par la publicité ou les abonnements, car la plupart de nos fonds sont protégés par la loi sur la propriété intellectuelle. Sur ce site, il y a à peu près 40 000 heures disponibles. Le contenu présenté est éditorialisé suivant une logique essentiellement en phase avec l’actualité.

Le portail InaMediapro s’adresse aux professionnels et met en accès, à des fins de réutilisation, sur inscription et authentification, les archives qui sont conservées à l’Ina et dont l’Ina détient ou partage les droits d’exploitation, ce qui représente à peu près 2 millions d’heures

Enfin, l’Inathèque propose à des fins d’étude et de recherches les 16 millions d’heures conservées par l’Institut. La loi sur le dépôt légal exige encore aujourd’hui une consultation dans des emprises physiques pour un usage individuel sur des postes dédiés. L’Inathèque est donc présente en salle P de la bibliothèque de recherche de la BNF et dans les 6 délégations régionales de l’Ina (Lille, Strasbourg, Rennes, Lyon, Toulouse et Marseille). Depuis 2012, une politique de déploiement est en cours, pour un accès facilité et un maillage étroit du territoire national. Aujourd’hui, 26 médiathèques, cinémathèques et bibliothèques sont équipées de dispositifs d’accès à nos collections numérisées, dit PCM, avec un objectif de 50 lieux équipés à l’horizon 2019.

Quels usages les chercheurs font-ils de vos collections ?

Claude Mussou

Tous les champs disciplinaires des Sciences humaines et sociales sont concernés par l’exploitation de ces archives : les mieux représentés sont l’histoire, les sciences politiques, l’information et la communication (de moins en moins, parce qu’aujourd’hui les chercheurs en infocom travaillent sans doute davantage sur les dispositifs que sur les contenus), la communication politique, l’urbanisme, la géographie, les arts du spectacle, etc. Il y a évidemment beaucoup de travaux menés sur la littérature du XXe siècle qui utilisent ces sources (avec Aragon et Marguerite Duras au palmarès des auteurs les plus étudiés à partir de nos collections), sur les captations théâtrales, sur les différentes adaptations d’une œuvre à la télé et au cinéma, etc.

Au regard de la richesse de ces collections de nature encyclopédique, certaines disciplines mériteraient d’être mieux représentées. Par exemple nous accueillons à l’Inathèque encore trop peu de musicologues. Pourtant, nous conservons par exemple des interprétations très rares diffusées à la radio. Nous avons engagé un plan de développement de l’exploitation des collections au travers d’une médiation, valorisation et éditorialisation accrues des fonds mis en consultation pour la recherche et nous espérons par ce biais susciter des travaux inédits et innovants Aujourd’hui, ils concernent en majorité des monographies d’émissions ou des travaux sur l’histoire des représentations. Au delà des travaux sur les sources ou les documents, de plus en plus des chercheurs cherchent à exploiter la masse des métadonnées qui décrivent nos collections. Pour satisfaire ces demandes qui s’inscrivent dans le champ émergeant des humanités numériques ou du big data à petite échelle, nous avons rédigé une licence d’exploitation spécifique des métadonnées de nos collections à des fins de recherche. Et nous procédons, à la demande, à l’extraction de gros volumes de données pour permettre une approche longitudinale et des travaux statistiques, par exemple sur la place ou la parole des hommes politiques dans les émissions de télévision. Dans le domaine de l’archivage du web, nous avons travaillé de façon étroite avec des chercheurs en sciences humaines et sociales qui ont notamment répondu à l’appel d’Alain Fuchs, président du CNRS, qui visait à susciter des travaux de recherche à partir des attentats de 2015. Il y a au moins deux projets de recherche sur les réactions et la réception des attentats, « Recherches sur les réactions aux attentats » (REAT) et « Archives sauvegarde attentats Paris » (ASAP) qui se sont notamment appuyés sur les archives de tweets conservés à l’Ina. Le travail en grande proximité avec les chercheurs a installé une relation très féconde qui a débouché sur le développement d’outils de fouille, de représentation et de visualisation pour exploiter ces archives d’un nouveau genre.

Nous avons également très à cœur de valoriser les travaux menés sur nos collections, ce que nous faisons à la fois en organisant ou participant à des séminaires de recherche ou colloques, en publiant des ouvrages ou au travers des Prix de l’Inathèque qui récompensent chaque année des travaux de Master et des travaux de thèse. En 2016, le prix de la recherche a été attribué à Valérie Schafer, chercheuse au CNRS, qui, outre sa participation au projet ASAP, a écrit une Histoire française du web.

Par rapport à l’archivage du web en général, l’archivage des sites liés à l’audiovisuel repose-t-il sur des motivations particulières ?

Thomas Drugeon

C’est une idée qui a commencé à apparaître au tout début des années 2000. De plus en plus les chaînes de télé utilisaient le champ du web pour présenter leurs programmes, pour interagir avec leurs spectateurs et pour éditorialiser leurs contenus. Il est apparu essentiel d’archiver cette composante essentielle du paysage audiovisuel français, au même titre que nous archivons les magazines télé, comme des documents d’accompagnement de nos collections.

Le découpage de l’archivage du web entre la BNF et l’Ina pouvait sembler assez brutal et arbitraire mais, en réalité, il est totalement logique parce que le web audiovisuel forme une cohérence avec les chaînes de télé. Quand une chaîne de télé pense l’éditorialisation d’une nouvelle émission, elle réfléchit en même temps à la partie broadcast, à la partie replay, à la partie web, à la partie réseaux sociaux, à la réexploitation de ses contenus, etc. C’est donc en réalité le même média qu’on archive.

Concernant l’archivage des plateformes en ligne, avez-vous une ambition d’exhaustivité au niveau national, ou bien opérez-vous une sélection ?

Thomas Drugeon

Nous n’archivons pas la totalité de YouTube ou de Dailymotion, mais nous sélectionnons des comptes d’auteurs sur la base de leur lien avec une chaîne de télé, une société de production, ou une personnalité audiovisuelle, ou parce que ce sont des objets qui nous semblent relever d’une évolution de la télévision. Par exemple « Les recettes pompette », qui est télédiffusée sur YouTube. Le CSA s’en est saisi récemment, ce qui est bien la preuve que cette émission relève du même domaine de compétence que la télé. On essaye donc d’archiver ce que sera la télé de demain, y compris la télé nativement web, parce que cela reste de la télé.

Et pour les tweets, comment procédez-vous ?

Thomas Drugeon

C’est à peu près le même genre de sélection que pour les vidéos. Nous collectons un tweet et l’indexons en tant qu’objet s’il est « embeddé », intégré dans une page qui est par ailleurs archivée. Nous suivons également des comptes de chaînes, de journalistes, etc. et des hashtags qui sont liés à l’audiovisuel, par exemple à des émissions.

Claude Mussou

Et comme l’archivage de la radio-télé couvre des événements évidemment médiatiques, nous archivons aussi, à l’occasion d’événements exceptionnels, les tweets en lien avec cette actualité.

D’un point de vue technique, comment faites-vous pour collecter toutes ces ressources ?

Thomas Drugeon

Dès le début des années 2000, on avons mis en place des robots de captation. Ils fonctionnent sur le même principe que les robots d’indexation de Google : ils moissonnent les sites web et parcourent les pages de lien en lien. Simplement, notre but n’est pas d’indexer, mais d’archiver tous ces contenus et de pouvoir les remettre à disposition de l’usager quand il les consulte, en recréant les interactions des usagers (cliquer sur un lien, appuyer sur play pour une vidéo, etc.).

Ensuite, il y a deux objets que nous sommes techniquement obligés de considérer à part. Tout d’abord, les vidéos qui ne sont pas simplement présentes dans une page web, mais qui sont hébergées sur des plateformes, et qui sont apparues à partir de 2005. Ces plateformes offrent la possibilité d’« embedder », d’inclure leurs vidéos dans une autre page. Ce sont des objets que nous collectons à part parce que nous avons besoin de robots spécifiques à chaque plateforme, qui évoluent de manière différente. Nous archivons ces contenus en normalisant les métadonnées (le titre, la description, les mots-clés, etc.), et nous en donnons un accès recontextualisé, c’est-à-dire que nous permettons à la fois à l’usager qui consulte une page dans laquelle est présente une vidéo de voir cette vidéo, mais nous lui permettons également de faire une recherche transversale pour trouver toutes les vidéos d’un hébergeur qui traitent d’un thème donné. Une des difficultés, quand on capte les vidéos sur une plateforme, c’est que celle-ci peut changer de méthodes de publication. Une plateforme comme YouTube ne va pas expressément nous empêcher de collecter ses vidéos (de toute façon il s’agit de contenus gratuits), mais nous devons suivre les évolutions. Une autre difficulté, qui concerne toutes nos archives audiovisuelles, c’est le volume. Nous avons développé des techniques de compression et de stockage spécifiques qui nous permettent sans perte de diviser par dix la taille de l’archive, et, par là-même d’augmenter sa pérennité, puisque cela nous permet d’avoir plus de copies, et de l’exploiter plus facilement.

L’autre objet qui est un peu à part, c’est Twitter, que l’on collecte depuis 2014 et qui est en consultation depuis moins d’un an. La tentation initiale était d’archiver tout twitter.com en tant que site web. Mais ce qui nous intéresse quand on archive un site web, c’est d’archiver sa forme canonique, c’est-à-dire sa forme la plus pure possible, et la plus représentative. Sur Twitter, ce n’était pas vraiment intéressant, parce qu’un tweet peut être consulté sur twitter.com, mais aussi sur une application, et il peut être embeddé dans une page, tout comme une vidéo. Comme pour YouTube, Dailymotion et les autres plateformes, nous avons décidé de nous intéresser à l’objet lui-même, à la donnée. Nous collectons les tweets eux-mêmes, et nous nous chargeons de les recontextualiser au moment de la recherche, de la consultation ou de la fouille dans les données. Cela permet d’indexer indépendamment chacun des champs d’un tweet : un tweet, ce n’est pas seulement 140 caractères, c’est aussi un grand nombre de métadonnées qui sont intéressantes à fouiller. On peut récupérer la photo de l’utilisateur, sa couleur préférée, son nombre de followers, le nombre de retweets, etc. Ces données ont donné lieu à des études spécifiques, notamment dans le cadre des projets REAT et ASAP autour des attentats de 2015.

Comment collaborez-vous avec les autres projets d’archivage du web ?

Thomas Drugeon

Nous faisons partie de l’International Internet Preservation Consortium (IIPC) qui a été fondé en 2003 afin de coordonner les travaux non seulement sur les méthodes et les outils, mais également sur la préservation dans le temps et l’interopérabilité des archives. Ce sont des problématiques qui ne sont pas encore complètement explorées. Nous participons également à un projet européen en cours de soumission, RESAW, qui vise à travailler sur l’interopérabilité et à permettre aux chercheurs de faire des recherches trans-archives relativement approfondies. Ce sont des projets sur lesquels nous travaillons en lien avec la BNF, avec laquelle nous partageons évidemment beaucoup d’approches et de techniques.

Est-ce que l’archivage audiovisuel soulève des problèmes juridiques particuliers ?

Thomas Drugeon

Nous nous inscrivons dans le cadre du dépôt légal, qui est une exception aux droits d’auteur.

L’auteur d’un tweet peut toujours choisir de le supprimer. L’archivage suppose-t-il qu’il perde cette possibilité de contrôle ?

Claude Mussou

Il faut noter que puisque les archives sont consultées sur place et que la copie est interdite, il n’y a pas de viralité possible. C’est une problématique qui concerne aussi la radio et la télé. Parfois, des personnes qui ont participé à des émissions de radio et de télé et qui ont un repentir demandent à être déréférencées dans notre catalogue. Nous le faisons en cohérence avec les limites imposées par la CNIL.

Quelles évolutions observe-t-on dans les rapports entre le secteur de l’audiovisuel et le web ? Y a-t-il eu des changements notables depuis que vous avez commencé à archiver ces contenus ?

Thomas Drugeon

On assiste à une évolution des modes de publication des chaînes. Au départ les chaînes créaient un nouveau site pour une nouvelle émission. Ensuite elles ont plutôt eu tendance à créer simplement un nouveau sous-site, parce qu’elles se sont aperçues que former de gros agrégats permettait d’être mieux indexé par les moteurs de recherche. Après, elles se sont dirigées vers des plateformes de type blog, plus interactives, plus en phase avec le web 2.0, et permettant aux usagers d’entrer dans le jeu. Peu à peu, on s’aperçoit qu’il y a de moins en moins de nouveaux sites qui se créent. À partir de la deuxième moitié des années 2000, quand une chaîne propose une nouvelle émission, elle se dirige plutôt vers une page Facebook ou une chaîne YouTube pour fédérer son audience. Et maintenant, on lance juste juste un hashtag. On laisse de plus en plus les usagers s’approprier le contenu en se contentant de les guider, et les politiques éditoriales ressemblent de plus en plus à du community management : faire émerger des usages, créer des buzz. Si on regarde la courbe d’évolution du nombre de sites web que nous avons collectés, on voit qu’elle augmente beaucoup au début, puis qu’elle s’est mise à stagner, alors qu’en parallèle les vidéos et les tweets ont pris le relais.

Claude Mussou

Et d’ailleurs, dans cette perspective-là, Twitter couvre un champ qui était auparavant difficile d’accès. Quand on voulait travailler sur la réception en radio-télé, on consultait au mieux le courrier des lecteurs, ou les données Médiamétrie, mais on manquait quand même un peu de matière et cela demandait beaucoup de travail d’investigation. Aujourd’hui les pratiques et usages numériques permettent plus facilement l’analyse de la réception.

Thomas Drugeon

Pour exploiter les archives Twitter, nous avons développé un outil qui répond à des besoins experts, à des chercheurs qui s’intéressent à la manière dont l’information circule sur cette plateforme. Pour un usager qui s’intéresse non pas à un type de mode de publication mais à quelque chose de plus général, c’est un peu plus ardu. Un des axes sur lequel nous travaillons, c’est par exemple de mettre en relation de manière très simple les hashtags d’une émission et l’émission donnée. Nous avons développé un petit démonstrateur où l’on visionne l’émission, avec à droite le fil des tweets qui correspondent aux différents hashtags qui sont abordés. À l’heure actuelle, Twitter c’est vraiment ce qui fait le ciment entre le web et la télé.

Propos recueillis le 13 avril 2017 par Marc Douguet