L’élection de Trump et les trois échecs du « big data » électoral
L’élection de Trump et les trois échecs du « big data » électoral
Par Samuel Laurent
La campagne de Hillary Clinton, supposée être à la pointe des technologies de ciblage électoral, a échoué à la faire élire. Du côté des médias, les modèles prévisionnistes, eux aussi basés sur le « big data », n’ont pas su prédire l’issue du scrutin.
Le vice-président des États-Unis, Joe Biden, au Centre des sciences de l’information de l’Université de Chicago, le 6 juin. | Jim Young / Reuters
Ce devait être le triomphe du « big data », selon l’expression (impropre) consacrée aux méthodes modernes de ciblage des électeurs. Mais l’élection américaine aura finalement signé sa grande faillite. Faillite des technologies avancées utilisées par l’équipe Clinton, qui y a mis des millions de dollars, mais aussi faillite des modèles de prévision mis en avant par de nombreux médias, et qui n’ont quasiment jamais su prédire correctement le scrutin – un échec toutefois relativisé par le fait que Hillary Clinton a obtenu un peu plus de voix que son adversaire, sans réunir assez de grands électeurs du fait du complexe mode de scrutin américain.
1. L’échec de la campagne la plus avancée techniquement
L’ironie est cruelle : à la veille du scrutin, les spécialistes de la communication politique étaient unanimes à dire que l’équipe de Hillary Clinton bénéficiait d’une solide avance technique sur celle de Donald Trump.
La collecte de données et de fichiers susceptibles de renseigner sur les desiderata et habitudes des électeurs, qui fut au centre des deux campagnes victorieuses de Barack Obama, est devenue depuis quelques années l’une des priorités des partis politiques américains.
Appuyée sur une série de logiciels spécialisés de la société NGP Van, mais aussi sur les fichiers d’électeurs hérités des campagnes de Barack Obama, la technologie devait permettre aux démocrates un ciblage extrêmement précis des électeurs à convaincre, comté par comté, quartier par quartier, et même maison par maison, avec des argumentaires personnalisés en fonction des informations recueillies. Ces logiciels permettent également de gérer les bénévoles, de repérer les plus actifs, de les positionner aux bons endroits, etc.
Mais ces outils n’ont pas su « lire » la campagne et l’ont mal orientée : plusieurs Etats, notamment ceux de la « Rust Belt » (des Etats industriels, comme le Michigan et le Wisconsin), considérés comme acquis d’avance, et donc peu « labourés » par les démocrates, ont finalement voté majoritairement pour Trump. Ce dernier, dont la campagne avait la réputation d’être moins avancée sur le plan technique, même si elle faisait appel à des technologies similaires, a finalement triomphé.
2. L’échec massif des sondages
La technologie des deux camps s’appuyait énormément sur les sondages, tout comme l’ont fait les médias américains. Contrairement à la présidentielle française, relativement simple à tester, le scrutin américain est indirect. Il faut conquérir chaque Etat, afin d’obtenir ses grands électeurs, pour s’assurer la victoire, et on peut, Hillary Clinton en a fait l’expérience, avoir la majorité des voix mais pas celle des grands électeurs.
Election américaine : Trump largement vainqueur, mais sans majorité de voix. | Les Décodeurs
C’est donc Etat par Etat (voire comté par comté) qu’il faut sonder l’opinion, pour ensuite agréger les résultats de ces sondages au niveau national et obtenir une vision d’ensemble. Ce qui implique de s’appuyer sur des dizaines, voire des centaines d’enquêtes, qui n’ont pas toutes la même méthodologie, les mêmes marges d’erreur ni la même crédibilité.
Il est trop tôt pour identifier avec certitude ce qui a conduit à une faillite quasi générale des instituts de sondages américains. Plusieurs hypothèses sont évoquées, notamment l’idée « d’électeurs Trump cachés » qui, à l’instar des électeurs Front national en France pendant longtemps, n’auraient pas voulu dire aux sondeurs qu’ils comptaient voter Trump.
Autre possibilité, celle de biais dans l’échantillonnage des électeurs sondés. Aux Etats-Unis, les sondages ne se font pas par échantillon représentatif, mais en constituant des panels au hasard. Longtemps, les sondeurs recouraient à l’annuaire téléphonique. L’apparition des téléphones mobiles a introduit des biais démographiques (les jeunes tendant à ne plus avoir de ligne fixe). Même chose avec l’utilisation croissante d’enquêtes en ligne, qui présentent elles aussi des biais. Ceux-ci tendent ensuite à se cumuler dans les matrices qui agrègent ces sondages locaux.
3. Le rôle ambigu du prédictif
C’est un troisième échec pour le « big data » : de nombreux médias américains avaient lancé leurs propres outils de prévision, qui donnaient non pas le résultat de sondages, mais directement un pourcentage de chances de victoire pour chaque candidat. Ces outils étaient construits en agrégeant et faisant des moyennes de sondages locaux, auxquels étaient parfois donnés des « scores » de crédibilité, qui pondéraient leur importance dans le résultat final.
Très mis en avant, les outils du New York Times, du Huffington Post ou de Reuters ont eu des effets pervers : au lieu de titrer « un sondage donne Hillary Clinton gagnante », ces médias écrivaient « Hillary Clinton a 90 % de chances de gagner ». Ce qui n’est pas tout à fait pareil, notamment dans la perception qu’ont pu avoir les lecteurs, et dans la mobilisation, ou non, des partisans de la candidate démocrate que tous les médias donnaient déjà gagnante depuis des mois.
Le pic de ce type de présentation sera atteint avec une prévision du Huffington Post donnant, le 7 novembre, plus de 98 % de chances de victoire à la candidate démocrate ! Un chiffre affiché sans guère de précautions pour expliquer la méthode employée et ses limites.
De nombreux journalistes américains l’ont reconnu : ils ont été « intoxiqués » par les données et ces systèmes de prévision. « Les journalistes n’ont pas questionné les données des sondages, car ils confirmaient leur sentiment viscéral que M. Trump n’avait pas la moindre chance de l’emporter », écrivait au lendemain du scrutin le médiateur du New York Times, Jim Rutenberg, qui ajoutait : « Le jour de l’élection a été précédé d’un mois de déclarations assurant que la course était serrée mais déjà terminée. »
Et de fait, le seul « prévisionniste » à appeler à la prudence, Nate Silver (qui donnait sur son site, Five Thirty Eight, tout de même à Mme Clinton de très larges chances de victoire), a subi les critiques du Huffington Post, qui l’accusait de trop « redresser » ses chiffres en faveur de M. Trump. Dans cette critique, quelques passages sont, rétrospectivement, particulièrement ironiques à relire :
« Je comprends que Silver veuille se couvrir. Ce n’est pas facile de s’asseoir et de vous dire que Clinton a 98 % de chances de gagner. Tout en nous nous crie que la vie est trop pleine d’incertitudes, qu’être aussi certain ne peut être qu’un fantasme. Mais c’est ce que nous disent les chiffres. Quel est l’intérêt de toutes ces entrées de données, toutes ces maths, toute cette modélisation si, au moment de vérité, nous levons les mains en l’air pour dire “hé, tout peut arriver”. »
Dans un texte très partagé, la chercheuse Danah Boyd a fustigé cette intoxication collective par les données. « Je crois à la data, mais la data est devenu le spectacle en elle-même. Je ne peux pas croire qu’il soit devenu acceptable, pour des médias, de balancer des chiffres issus de sondages sans aucune critique des limites de ces données, et de produire de jolies visualisations qui suggèrent que les nombres sont une information magique […]. Cet abus de données doit cesser. Nous avons besoin que la data soit responsable, pas un spectacle. »