Vingt ans d’archivage du Web : un projet titanesque
Vingt ans d’archivage du Web : un projet titanesque
Par Morgane Tual
Depuis deux décennies, la fondation Internet Archive, avec d’autres institutions comme la BNF, consigne soigneusement la mémoire du Web pour les générations futures.
Il faut s’engouffrer dans les sous-sols de la Bibliothèque nationale François-Mitterrand pour y accéder. Sillonner de longs couloirs et déverrouiller quelques portes à l’aide d’un badge spécial. Une fois la dernière poussée, le bourdonnement est assourdissant, l’air perd quelques degrés et de massives armoires noires parsemées de diodes vertes clignotent.
C’est ici que repose l’histoire du Web français. Dans ces machines sont stockés 668 Téraoctets (To) d’archives, soit 26 milliards de fichiers que la Bibliothèque nationale de France (BNF) consigne soigneusement depuis vingt ans.
Comme les livres ou les journaux, le Web fait lui aussi l’objet d’un archivage minutieux. Une initiative officiellement née en octobre 1996, bien loin des murs de la BNF, de l’autre côté de l’Atlantique. L’Américain Brewster Kahle lance alors la fondation Internet Archive, qui posera les bases mondiales de l’archivage du Web. « C’est un personnage un peu fantasque, une rock star qui gagnerait à être connue », décrit Arnaud Beaufort, directeur des services et réseaux à la BNF, qui le côtoie régulièrement.
Il faut dire que son parcours est hors du commun : inscrit à l’« Internet Hall of Fame », qui récompense les personnes ayant notablement contribué au développement du Web, il devient multimillionnaire après avoir fondé puis vendu deux entreprises dans les années 1990. Au lieu de continuer dans cette lancée fort rentable, Brewster Kahle décide de consacrer tout son temps, et sa fortune, à un projet titanesque que personne d’autre n’avait jusque-là entrepris : archiver le Web.
Brewster Kahle, le fondateur d’Internet Archive, en 2009. | JOI ITO / CC BY 2.0
« Un site Web change ou disparaît tous les quatre-vingts jours en moyenne. Et avec, c’est notre culture, notre histoire, la trace de nos vies qui disparaissent. Le Web a besoin d’une mémoire », explique-t-il au Monde.
Brewster Kahle décide donc en 1996 de lancer Internet Archive, qui prend la forme d’une fondation. Mais par où commencer pour se lancer dans un projet si ambitieux ? Il développe un « crawler », un programme capable de naviguer automatiquement sur des sites et de stocker des copies des pages Web visitées.
Le premier archivage concerne les sites relatifs à l’élection présidentielle américaine de 1996. « Ensuite, nous avons crawlé tout ce que nous pouvions, tous les deux mois, se souvient l’ancien entrepreneur. Dans ma tête, il s’agissait des premiers pas pour créer la prochaine bibliothèque d’Alexandrie, celle de l’ère numérique. Une bibliothèque numérique universelle. »
Serveurs de l’Internet Archive de la BNF. | MORGANE TUAL / LE MONDE
Brewster Kahle n’est pas le seul à s’intéresser à cette question. Les bibliothèques nationales de Suède et d’Australie se lancent, elles aussi, chacune de leur côté, dans l’archivage du Web de leurs pays respectifs. La BNF, suivie par l’Institut national de l’audiovisuel (INA), leur emboîte le pas assez rapidement, en 1999.
« Un grand chambardement »
Julien Masanès a été l’un des initiateurs de ce projet. Diplôme de conservateur en poche, il se fait embaucher à la BNF en proposant de travailler sur ce sujet. « Pour moi, c’est sur le Web que la connaissance de la société d’aujourd’hui se bâtira dans le futur. Ce sera un matériau fantastique pour les chercheurs, parce qu’il n’y a pas de médiation, ça concerne tout le monde. Notre mission est de créer les conditions pour que ce soit conservé. »
Soutenu par la direction de la BNF, il rencontre toutefois quelques résistances : « Pour certains, Internet se rapproche de l’auto-édition, pour laquelle ils ont un grand mépris, car le contenu n’est pas validé par qui que ce soit. »
Julien Masanès a initié l’archivage du Web à la BNF.
Le premier chantier d’archivage est lancé au début des années 2000. Comme aux Etats-Unis, la BNF s’efforce de collecter les sites relatifs à l’élection présidentielle de 2002, avant d’élargir son archivage. Très tôt, Julien Masanès prend contact avec Brewster Kahle, avec qui la BNF va collaborer étroitement. Celui-ci accepte de fournir ses propres archives du Web français, qu’il collecte depuis 1996. « Elles arrivaient par avion dans de grandes baies rouges contenant des centaines de disques durs », se souvient Arnaud Beaufort, de la BNF.
Archiver le Web représente « un grand chambardement » dans la façon de faire de la BNF, souligne Julien Masanès, et pose de nombreuses questions inédites à l’ère du papier. Comment identifier les sites qui relèvent du Web français ? Faut-il tous les archiver ? A quelle fréquence ? Que faire des commentaires, des documents liés et autres formats propres au Web ? Dix-sept ans après l’arrivée de Julien Masanès à la BNF, la prestigieuse bibliothèque semble avoir trouvé son rythme de croisière.
En partenariat avec l’Afnic, l’association gestionnaire des noms de domaine en .fr et d’autres, la BNF a identifié une base de 4,5 millions de noms de domaines français à archiver. « Une fois par an, nous faisons une photographie du Web français, en essayant de ratisser le plus large possible », explique Emmanuelle Bermès, chargée de l’archivage du Web dans l’établissement.
« Collectes d’urgence »
Celle-ci représente environ un tiers des contenus archivés annuellement. Le reste consiste en une collecte ciblée, effectuée sur des sites et des thématiques sélectionnés par les chargés de collection. Il y a par exemple les sites de presse, mais aussi des choix censés assurer une représentativité de la diversité et de l’évolution du Web.
« Par exemple, pendant la période des Skyblogs, on en a collecté quelques-uns. Pas tous, mais une représentation », précise Mme Bermès. Il y a aussi ce qu’elle appelle « les collectes d’urgence », qui dépendent de l’actualité comme après les attentats de janvier 2015, ou pendant le mouvement Nuit debout.
Les 668 To d’archives, auxquels s’ajoutent 120 To chaque année, sont conservés dans les locaux de la BNF, et une copie dans un autre lieu en France, dont l’emplacement est tenu secret. Un troisième lieu est actuellement à l’étude.
Arnaud Beaufort, directeur des services et réseaux de la BNF. | MORGANE TUAL / LE MONDE
Parallèlement à ces institutions publiques, Internet Archive a poursuivi son chemin, et est devenue l’archive la plus importante, et de loin, du Web. La fondation héberge aujourd’hui plus de 25 petabytes de données, dont 460 milliards de fichiers Web, mais aussi des vidéos, des sons, des livres ou encore des logiciels. Stockées à San Francisco (Californie), une partie de ses données ont été copiées pour être transmises… à la bibliothèque d’Alexandrie.
Emmanuelle Bermès, de la BNF. | ISABELLE JULLIEN-CHAZAL/ BNF
Internet Archive s’est aussi distinguée des autres en lançant, dès 2001, sa Wayback Machine, un outil permettant à n’importe quel internaute de parcourir ses vastes archives. A l’inverse, les collections de la BNF sont jalousement conservées dans ses murs. Il faut, pour y accéder, se rendre à la bibliothèque François-Mitterrand ou dans une des sept autres bibliothèques françaises autorisées. Elles seront une quinzaine à la fin de l’année.
Pourquoi une telle restriction ? Car l’archive du Web, comme celle des livres, est encadrée par le code du patrimoine. Et de la même manière qu’il n’est pas question de rendre tous les livres accessibles gratuitement en ligne, pour protéger le droit d’auteur, la BNF ne peut le faire avec ses archives du Web. « Internet Archive n’a pas les mêmes impératifs et les mêmes moyens d’action », souligne Mme Bermès. Ce que confirme Arnaud Beaufort : « Brewster peut tester les limites du droit d’auteur. »
Des différences d’approche qui auraient pu représenter un frein au développement de l’archivage du Web. En 2003, Julien Masanès, toujours à la BNF, et Brewster Kahle envisagent ensemble de lancer un consortium international pour regrouper toutes les institutions d’archivage du Web. Mais tous les bibliothécaires ne voient pas d’un bon œil l’implication d’une fondation privée dans ce rôle.
Brewster Kahle expose le projet devant un parterre de représentants de grandes bibliothèques nationales : une présentation à l’américaine « qui n’a pas très bien marché », sourit Julien Masanès. Mais Jean-Noël Jeanneney, alors président de la BNF, ne lâche rien. La première à accepter a été la British Library, puis les bibliothèques des pays scandinaves, suivie de celle du Congrès américain.
Un avenir encore fragile
L’International Internet Preservation Consortium a donc fini par voir le jour, et comprend désormais une cinquantaine de membres. Des bibliothèques majoritairement, que commencent à rejoindre d’autres acteurs. Google pourrait par exemple bientôt en faire partie. Au fil des ans, le Consortium s’est mis d’accord sur des standards, notamment pour stocker les archives de la même façon. « On voulait préparer les conditions de l’interopérabilité. » Mais, treize ans plus tard, ces archives n’ont toujours pas été connectées les unes aux autres.
Car vingt ans après les premiers pas de l’archivage, si d’énormes progrès ont été faits, de nombreuses questions se posent encore. Le Web ne cesse d’évoluer, et complique la tâche des archiveurs. A l’image de l’arrivée des réseaux sociaux : impossible d’archiver, par exemple, tous les tweets existants.
Sur ces machines, stockées dans les sous-sols de la BNF, sont hébergés vingt ans d'archives du Web français. | MORGANE TUAL / LE MONDE
Mais le plus gros chantier n’est pas technique. Il consiste encore à convaincre les nombreux pays qui n’archivent pas le Web de s’y intéresser. Et à assurer la pérennité de l’archivage. Aujourd’hui, Internet Archive reste fragile. « Ils sont installés sur une faille sismique, dépendent d’une personne, et puis il y a les aléas de l’histoire… », énumère M. Masanès.
A l’autre bout du monde, Brewster Kahle, quant à lui, rêve « d’une bibliothèque gratuite et accessible à tous et partout » : « J’ai pour horizon l’année 2020. J’aimerais d’ici là avoir pu la construire avec d’autres bibliothèques et institutions. Nous pourrions préserver nos collections dans un modèle décentralisé, comme ça si quelqu’un tombe, la connaissance subsiste. Et la censure devient bien plus difficile. » Il se veut optimiste. « Je pense qu’on va pouvoir y arriver. »