Les préférences d’un juge en matière de pornographie, les médicaments commandés par un élu… une étude menée par une journaliste et un chercheur allemand, présentée à la conférence de sécurité informatique DEF CON, montre une fois de plus que l’anonymisation des données de navigation des internautes n’est aucunement une garantie contre les violations de la vie privée.

Pour réaliser leur étude (PDF), Svea Eckert et Andreas Dewes se sont procuré un accès aux données collectées par des modules complémentaires pour navigateurs Internet, récupérées par des entreprises de marketing. Dans ces données figurait notamment la liste des sites visités par les internautes ; ces données étaient « anonymisées », au sens où seul un identifiant arbitraire désignait les internautes, sans données personnelles, comme l’adresse IP de leur ordinateur ou smartphone.

Mais cette « anonymisation » est faible, détaillent les deux chercheurs : quelques manipulations « triviales » suffisent à lever l’anonymat d’une partie des utilisateurs. Notamment parce que les habitudes de navigation et les comportements des internautes sont beaucoup plus singuliers qu’on ne le pense habituellement. Même en se limitant à des sites populaires, le nombre d’internautes qui visitent exactement les mêmes sites ou pages durant un mois est très faible, ce qui permet facilement de déterminer qui ils sont lorsqu’on a accès à l’intégralité de leur historique de navigation.

Par exemple, les deux chercheurs ont pu facilement identifier, dans les historiques de navigation à leur disposition qui concernaient trois millions d’internautes allemands, les auteurs de playlists YouTube, ou les détenteurs de comptes Twitter qui avaient publié plusieurs liens vers des sites – et avaient donc logiquement fréquenté ces pages.

« Les informations publiquement disponibles sur les internautes sont de plus en plus nombreuses, et il est donc de plus en plus facile de trouver des données pour désanonymiser des historiques de navigation », a dit M. Dewes dans un entretien à la BBC. Les chercheurs expliquent avoir détruit les données en leur possession après avoir mené leur expérience, de peur qu’elles soient piratées et utilisées par des tiers.

Multiples études concordantes

De nombreux travaux de recherche avaient déjà montré que l’anonymat des historiques de navigation était très relatif. Dès 2006, lorsque 20 millions de recherches anonymisées effectuées par 650 000 utilisateurs américains d’AOL avaient été rendues publiques, plusieurs études avaient montré qu’il était possible d’identifier les internautes individuellement avec une certaine facilité. Plus récemment, une étude menée par des chercheurs de Stanford et de Princeton en 2017 avait montré (PDF) qu’il était possible d’identifier l’historique de navigation correspondant à un compte Twitter, même lorsque les historiques sont « anonymisés ».

Les historiques de navigation sont enregistrés par des dizaines d’application et de mouchards dédiés à la publicité ciblée, qui affirment que cette collecte n’est pas dangereuse pour la vie privée parce que les données sont « anonymisées ». En Europe, cette pratique est encadrée par des lois qui limitent en partie le type de données collectées et leur utilisation, mais d’autres pays, dont les Etats-Unis, sont très peu stricts dans ce domaine. Le gouvernement Trump a autorisé cette année les fournisseurs d’accès à Internet à revendre directement les historiques de navigation de leurs clients à des tiers.