Les chercheurs de l’étude ont utilisé des programmes simulant la visite d’un site, et effectué pour chacun quinze mesures pour déterminer quelles données étaient collectées et par quel biais. | Rich Pedroncelli/AP

Pendant plusieurs mois, deux chercheurs de l’université de Princeton (New Jersey), Steven Englehardt et Arvind Narayanan, se sont livrés à la plus vaste étude (en PDF) jamais publiée sur les trackers, ces morceaux de codes utilisés pour identifier ou suivre la navigation des internautes, en passant au peigne fin un million de sites Web.

Pour ce faire, les chercheurs ont utilisé des programmes simulant la visite d’un site, et effectué pour chacun quinze mesures, pour déterminer quelles données étaient collectées, et par quel biais. Ce robot a visité les un million de sites les plus fréquentés, selon le classement Alexa, et listé l’ensemble des trackers qui y étaient présents.

Première conclusion : un vaste mouvement de consolidation a eu lieu ces dernières années, et seule une minorité d’acteurs bien connus sont présents sur la grande majorité des sites – seuls 123 trackers, sur un total de plus de 80 000, sont présents sur plus de 1 % des sites. Sans surprise, on trouve, largement en tête, Google, qui collecte de vastes quantités de données personnelles pour afficher des publicités ciblées et dont le seul tracker Google Analytics figure sur un peu moins de 70 % des sites analysés. Juste derrière se trouvent Facebook (20 % des sites) et Twitter (10 %).

L’étude montre également que d’un type de site à l’autre, le nombre de trackers externes, utilisés pour la publicité ciblée ou les statistiques d’audience, varie grandement. Les sites comportant le moins de trackers sont les sites associatifs ou gouvernementaux, qui n’affichent pas de publicités, suivis par… les sites pornographiques, avec une moyenne de six trackers par site.

En revanche, les sites d’information sont de loin les plus gros utilisateurs de trackers externes, avec un peu moins de quarante mouchards par site, soit le double du nombre moyen constaté.

Porosité des données collectées

L’analyse des données collectées donne également un éclairage intéressant sur la porosité des données collectées et le nombre de tiers auxquels elles peuvent être transmises. La question est loin d’être anodine, d’autant plus que des documents rendus publics par le lanceur d’alerte Edward Snowden ont montré que la NSA américaine utilisait aussi à l’occasion les données collectées par des trackers « commerciaux » pour ses programmes de surveillance de masse.

Les chercheurs ont identifié des cookies – de petits fichiers qui stockent les informations collectées – qu’ils qualifient de « cookies faciles », parce qu’ils synchronisent leurs informations avec un très grand nombre de services différents. « Les raisons pour lesquelles ces cookies sont régulièrement mis à jour et partagés ne sont pas encore claires, écrivent les chercheurs. Mais si un assaillant parvient à identifier une personne par le biais d’un cookie de ce type, sa capacité à le surveiller ou à le cibler avec des logiciels espions sera particulièrement bonne. »

L’étude comporte cependant une bonne nouvelle pour les personnes soucieuses de leur vie privée en ligne : conduite sur un très grand nombre de sites, l’une des expériences des chercheurs montre que les outils de blocage des trackers, comme le module Ghostery, sont très efficaces dans la grande majorité des cas. Seuls certains trackers utilisant des méthodes peu courantes de fingerprinting – consistant à bâtir un « profil unique » en fonction des spécificités graphiques, sonores ou autres d’une machine – échappent à Ghostery, principalement, jugent les auteurs, parce que ces mouchards particulièrement intrusifs sont peu répandus.