Pourquoi certains Skyblogs ne sont pas archivés sur Wayback Machine ?

La fermeture de la plateforme Skyblog, annoncée par l’opérateur Skyrock en 2023, a provoqué une mobilisation inhabituelle autour de la conservation des contenus publiés entre 2002 et 2010. Des millions de pages personnelles, souvent considérées comme des archives d’une période marquée par les débuts du blogging francophone, risquaient de disparaître.

Face à cette situation, de nombreux internautes ont tenté de retrouver leurs anciens blogs via Wayback Machine, l’outil d’archivage en ligne développé par l’Internet Archive. Pourtant, beaucoup ont découvert que leur blog n’apparaissait pas dans les archives.

Cette absence ne signifie pas forcément que le site n’a jamais existé. Elle résulte généralement de plusieurs critères liés à la manière dont les robots d’archivage collectent les pages web. Popularité du site, activité du blog ou encore restrictions d’accès peuvent expliquer pourquoi certains Skyblogs ne figurent pas dans la base de données.

Skyblog Wayback Machine : les critères qui décident de l’archivage

L’archivage automatique du web repose sur des robots capables d’explorer les pages publiques et d’en enregistrer une copie à un moment donné. La Wayback Machine utilise des programmes d’exploration similaires à ceux des moteurs de recherche.

Cependant, ces robots ne capturent pas l’intégralité d’Internet. Les ressources disponibles étant limitées, l’archivage se fait selon des critères qui déterminent quelles pages seront collectées et lesquelles resteront absentes.

Parmi ces critères, trois paramètres reviennent régulièrement dans le cas des Skyblogs.

Popularité du compte ou blog

La popularité d’un blog joue un rôle important dans sa probabilité d’archivage. Les robots d’exploration découvrent souvent les pages à partir de liens présents ailleurs sur Internet. Plus un blog est cité ou partagé, plus il a de chances d’être repéré.

Durant les années 2000, certains Skyblogs étaient très visibles. Les blogs liés à des artistes, à des communautés musicales ou à des forums actifs recevaient parfois plusieurs milliers de visites par jour. Ces pages étaient souvent reprises dans d’autres blogs ou dans des annuaires, ce qui augmentait leur visibilité pour les robots d’archivage.

À l’inverse, un blog créé pour un cercle d’amis, avec très peu de liens entrants, pouvait rester presque invisible pour les robots du web. Sans lien externe, il devenait difficile pour les programmes d’exploration de découvrir son existence.

Des analyses menées par l’Internet Archive indiquent que les robots d’archivage privilégient les pages déjà visibles dans les index des moteurs de recherche. Or, de nombreux Skyblogs n’étaient jamais référencés sur des moteurs comme Google.

Cela explique qu’une grande quantité de blogs personnels n’ait jamais été collectée.

Fréquence de mise à jour

Un autre paramètre concerne l’activité du blog. Les robots d’archivage repassent plus souvent sur les sites qui publient régulièrement du contenu.

Sur Skyblog, beaucoup d’utilisateurs publiaient intensivement pendant quelques mois avant d’abandonner leur page. Certains blogs ne contiennent qu’une dizaine d’articles publiés sur une courte période.

Dans ces conditions, les robots pouvaient ne jamais revenir après leur première visite. Si celle-ci n’a pas eu lieu durant la période d’activité du blog, aucune capture n’a été enregistrée.

Les sites très actifs ont davantage de chances d’être archivés plusieurs fois. C’est la raison pour laquelle certains blogs populaires possèdent des dizaines de versions sauvegardées entre 2004 et 2012.

À l’inverse, un blog mis à jour une seule fois ou resté inactif pendant des années avait beaucoup moins de probabilité d’être capturé par les robots d’archivage.

Interaction des visiteurs

L’activité des visiteurs constitue aussi un signal indirect pour les robots. Les pages qui génèrent des interactions ont davantage de visibilité sur le web.

Sur Skyblog, les interactions se traduisaient par plusieurs indicateurs :

• commentaires laissés par d’autres utilisateurs
• liens vers le blog dans d’autres pages
• mentions sur des forums ou des annuaires

Un blog comportant des centaines de commentaires attirait souvent davantage de visiteurs et donc davantage de liens externes. Cette circulation de liens facilitait la découverte du site par les robots d’archivage.

À l’opposé, un blog sans commentaire ni partage restait souvent isolé dans l’immense réseau de pages de la plateforme.

Selon plusieurs estimations issues de travaux universitaires sur l’archivage du web, moins de 20 % des pages créées sur les plateformes de blogs dans les années 2000 ont été capturées par des archives publiques. Les autres sont restées hors du radar des robots.

Skyblog non archivé : ces contenus que Wayback Machine ignore

Au-delà des critères liés à la popularité ou à l’activité, certains contenus sont volontairement ignorés par les robots d’archivage. Plusieurs paramètres peuvent empêcher la capture d’une page, même si elle est visible sur Internet.

Dans le cas des Skyblogs, deux situations reviennent souvent.

Pages privées ou réservées aux contacts

La plateforme permettait aux utilisateurs de restreindre l’accès à certaines publications. Il était possible de rendre un article visible uniquement pour les contacts autorisés ou pour une liste d’amis.

Dans ce cas, la page ne pouvait pas être consultée par un visiteur anonyme. Les robots d’archivage fonctionnant comme des visiteurs classiques, ils ne pouvaient pas accéder à ces contenus.

Même si le blog existait publiquement, certaines pages restaient invisibles pour les robots. Les articles protégés n’étaient donc jamais enregistrés dans les archives.

Ce phénomène était relativement fréquent. Selon des données publiées par l’équipe de Skyrock lors de la fermeture de la plateforme, près de 30 % des blogs comportaient au moins une publication restreinte aux contacts.

Ces publications restent aujourd’hui impossibles à retrouver via Wayback Machine.

A voir également: Retrouver un skyblog : voici 3 méthodes infaillibles

Contenus protégés par mot de passe ou restrictions d’accès

Un autre blocage fréquent concerne les pages protégées par mot de passe. Certains utilisateurs avaient choisi de sécuriser leur blog afin d’empêcher l’accès aux visiteurs non autorisés.

Lorsqu’un robot d’archivage rencontre une page nécessitant une authentification, il ne peut pas franchir cette barrière. Le contenu reste donc inaccessible pour l’archivage.

D’autres restrictions pouvaient également empêcher la capture des pages :

• blocage via le fichier robots.txt du site
• restrictions liées au serveur de la plateforme
• scripts empêchant l’exploration automatisée

Ces paramètres sont courants sur les plateformes de blogs. Ils servent notamment à protéger certaines données personnelles ou à limiter la collecte automatisée de contenus.

Pour Wayback Machine, ces blocages signifient simplement que la page ne peut pas être enregistrée.

Des millions de Skyblogs disparus des archives

La plateforme Skyblog a hébergé plus de 11 millions de blogs entre 2002 et 2023, pour un volume estimé à plusieurs milliards de pages. Archiver un ensemble aussi vaste représente un défi considérable pour les services de conservation du web.

Malgré les efforts menés par l’Internet Archive et par plusieurs initiatives bénévoles, une grande partie de ces contenus ne figure pas dans les archives publiques.

Les raisons sont multiples : visibilité limitée des blogs, absence de liens externes, restrictions d’accès ou simple passage des robots d’archivage à un moment où le site n’était pas encore créé.

Ainsi, l’absence d’un Skyblog dans Wayback Machine ne signifie pas forcément qu’il a été supprimé immédiatement après sa publication. Dans de nombreux cas, il n’a simplement jamais été capturé par les robots chargés de sauvegarder le web.

Cette réalité illustre une caractéristique souvent méconnue d’Internet : malgré l’immensité des archives en ligne, une grande partie des pages publiées depuis les débuts du web n’a jamais été conservée. Pour les anciens utilisateurs de Skyblog, cela signifie que certains souvenirs numériques resteront probablement introuvables.

Pourquoi certains Skyblogs ne sont pas archivés sur Wayback Machine ?