Le web est, à bien des égards, la construction humaine qui se rapproche le plus de l'infinie bibliothèque de Babel de Jorge Luis Borges, censée contenir toute l'étendue des connaissances humaines dans ses rayonnages fractals.
La création de Tim Berners-Lee, déployée au CERN de Genève en 1989 avant de devenir l'outil incontournable du monde moderne que nous connaissons aujourd'hui, n'avait initialement pas pour autre but que celui-ci: partager de la connaissance en ligne, telle une super-bibliothèque.
Le philosophe argentin nous avait pourtant prévenus. Sans indexation, une archive devient d'autant plus inutile que sa taille est étendue. D'où l'importance cruciale du lien URL. Sans lien fiable, pas de sources dans cet article. Pas de citations académiques dans des articles de recherche. Pas de moteurs de recherche, enfin, qui utilisent des logiciels dits «crawlers» pour sauter de page en page et indexer les résultats.
Or, explique le journaliste de The Atlantic Jonathan Zittrain dans un fascinant article publié début juin, le World Wide Web contemporain a grandi incommensurablement vite (aujourd'hui, selon Google, il serait constitué de «centaines de milliards de pages»).
Trop vite, en réalité, pour qu'un index cohérent puisse suivre, d'autant que sa structure décentralisée –aucune autorité centrale ne «contrôle» le web, rappelons-le– rend paradoxalement la tâche d'indexation plus ardue.
Au-delà de vingt ans, l'oubli
Et ce web-là a un problème structurel: ses fondations, les liens URL menant vers ses pages les plus anciennes, sont complètement pourris.
Pire, lorsqu'un lien vers une source originelle meurt, c'est parfois toute une arborescence de pages web qui devient caduque, puisque les pages renvoient successivement chacune vers l'autre jusqu'à un trou noir informationnel qui s'exprime sous forme d'erreur 404. Celle-ci peut aussi bien concerner une page de blog sans importance qu'une étude scientifique, un rapport d'organisation ou… un texte de loi.
Ce pourrissement épidémique des liens («link rot», en anglais), qui détruit irrémédiablement l'unique accès à des pans entiers de l'internet préhistorique, a plusieurs fois été estimé par des chercheurs.
En 2014, ceux-ci démontrent que 75% des liens de la Harvard Law Review ne fonctionnent plus. En 2018, l'encyclopédie Wikipédia a dû «ressusciter» 9 millions de liens morts dans ses articles, relatait alors Numerama.
En 2021, une étude menée sur 2 millions d'articles du New York Times démontre que la moitié des liens dits «profonds» –qui renvoient vers un autre article du quotidien– étaient pourris. Sur les réseaux sociaux, un post sur trois ne tiendrait pas deux ans. De tels chiffres, pour des bases de données supposément bien entretenues, sont absolument terrifiants.
Alors, comment lutter? En archivant le web autrement, en créant de nouvelles bibliothèques et de nouveaux index plus robustes.
Perma.cc, qui transforme les liens URL en archives permanentes de la page souhaitée, en est un; de même que l'extension de navigateur Arweave; enfin, et surtout, la Wayback Machine de l'internet Archive, qui sauvegarde en permanence le web et développe des bots de récupération de liens morts, est le principal rempart à la déliquescence numérique.
Et oui, ça inclut votre skyblog, même si vous auriez aimé le voir disparaître.