Introduction
La maison de sondage PEW Research publiait en mai dernier les résultats d’une étude portant sur la disparition des pages web avec le temps.
Pour ce faire, les chercheurs ont choisi de manière aléatoire près d’un million de pages web parmi celles archivées en 2013 par Common Crawl. Fondé en 2007, cet organisme entrepose mensuellement entre 1,2 et 3,6 milliards de pages web.
En suivant l’existence des pages choisies par les chercheurs au sein des sauvegardes successives de Common Crawl, ils ont pu découvrir les pages disparues au fil du temps et déterminer le mois de leur disparition.
Selon cette étude, une disparition annuelle d’environ sept pour cent survient au cours des cinq premières années. Au-delà, cette disparition s’effectue à un rythme moindre.
Les hyperliens des sites gouvernementaux
Environ la moitié des pages sélectionnées étaient hébergées sur des sites gouvernementaux. Au total, ces pages contenaient 42 millions d’hyperliens, dont 86 % pointaient vers d’autres pages sur le même site.
En moyenne, 21 % de ces pages contenaient au moins un hyperlien défectueux. Dans 6 % des pages, aucun de ses hyperliens ne fonctionnait correctement.
Le pourcentage de pages web dont au moins un hyperlien était brisé était de 15 % dans le cas des sites d’un État américain, de 21 % dans le cas du gouvernement fédéral américain, de 27 % dans le cas d’un comté (en anglais, County) et de 29 % dans le cas d’une ville.
Les hyperliens des médias électroniques et de Wikipédia
L’autre moitié des pages sélectionnées étaient des nouvelles publiées par 2 063 médias électroniques. Au total, ces pages comportaient quatorze-millions d’hyperliens, dont 5 % brisés.
Près du tiers des hyperliens pointaient vers une page web déplacée ailleurs mais que le site web du média, à la volée, redirigeait au bon endroit.
Le huitième des hyperliens donnaient aux lecteurs l’accès à un document statique (habituellement un PDF).
Dans 23 % des cas, les pages web de quotidiens électroniques contiennent au moins un hyperlien brisé.
Sur le site de l’encyclopédie Wikipédia, 11 % de toutes les références de sont brisées, soit le double de ce qui a été observé sur les médias électroniques.
Un peu plus de la moitié (54 %) des textes de Wikipédia comporte au moins une référence défectueuse. Encore une fois, c’est environ le double de ce qui a été observé sur les sites des médias en ligne.
Référence : When Online Content Disappears
Complément de lecture (au sujet de X) : Internet : l’ère de l’éphémère (1re partie)