Twitter a annoncé de nouvelles mesures pour lutter contre le harcèlement. | Richard Drew / AP

C’est un important changement de politique que vient d’annoncer Twitter, mercredi 1er mars. Jusqu’ici, le réseau social clamait haut et fort, comme ses rivaux, que la modération des contenus et des comptes s’effectuait à la main – ce qui expliquait, selon elle, certains manquements et certaines lenteurs. Dans sa lutte contre les contenus « abusifs » et le harcèlement, que Twitter affiche depuis plusieurs mois comme une priorité, le réseau social vient d’annoncer qu’il allait désormais sanctionner automatiquement certains comptes, sans passer par un modérateur humain.

Un algorithme va pour cela scruter le contenu des tweets afin de repérer les utilisateurs problématiques, sans qu’ils soient nécessairement signalés par des internautes. Le programme se basera sur différents critères, dont tous ne sont pas connus : l’utilisateur utilise-t-il certains mots ? A-t-il certains comportements types des harceleurs, comme par exemple, explique Twitter dans un billet de blog, s’il « mentionne à plusieurs reprises des non-abonnés sans aucune sollicitation de leur part » ?

Si l’utilisateur est étiqueté « abusif » par le programme, alors il sera sanctionné. La visibilité de ses tweets sera limitée pendant « un certain temps » : ils ne seront plus visibles que par ses abonnés. Et n’apparaîtront donc pas dans les résultats de recherche, ni dans les retweets, ni même dans les notifications des autres utilisateurs avec lesquels il souhaiterait interagir.

Une sanction légère

La peine peut sembler légère. Mais Twitter réserve à ses équipes de modération le droit de suspendre des utilisateurs. Ces équipes, dont Twitter ne dit rien de la composition ni de la taille, continueront à examiner les contenus signalés par les internautes et à suspendre les comptes qui le nécessitent. Chez Twitter, on espère que ces sanctions automatisées permettront aux modérateurs humains de se concentrer davantage sur les cas les plus graves : menaces de mort, contenus violents ou apologie du terrorisme par exemple.

Aux algorithmes, donc, les abus liés au harcèlement, et notamment ceux qui ne sont pas toujours évidents à classer. L’algorithme, qui combine différents critères, pourrait permettre de les repérer et de les sanctionner rapidement.

Toutefois, un tel système, qui a peu de chances d’être infaillible, risque aussi fortement de générer de « faux positifs », à savoir sanctionner des utilisateurs n’ayant rien fait de mal. C’est ce qu’ont déjà expérimenté certains internautes, chez qui le système avait été déployé en test ces dernières semaines. Par exemple, des comptes ont été punis pour avoir écrit le mot « fag ». Or, si aux Etats-Unis ce mot peut être utilisé comme insulte (« pédé »), au Royaume-Uni il signifie « clope ».

« Nous ferons parfois des erreurs »

Un algorithme n’est pas capable de saisir les nuances du langage, et encore moins les subtilités des interactions entre humains – il est donc impensable que ce programme ne fasse pas d’erreurs en sanctionnant les mauvaises personnes. Twitter le reconnaît : « Comme ces outils sont nouveaux, nous ferons parfois des erreurs, mais sachez que nous travaillons activement à les améliorer jour après jour. » La question est surtout : quelle proportion d’erreurs ? Resteront-elles marginales ou affecteront-elles massivement les utilisateurs du réseau social ?

Cette incertitude explique aussi peut-être pourquoi la peine est pour le moment si légère : finalement, même pour les utilisateurs injustement sanctionnés, la sentence est relativement indolore. A ce niveau-là, elle fait presque office de simple rappel à l’ordre et aux bonnes manières. Même s’il n’est pas exclu que Twitter ajoute d’autres limitations plus sévères à l’avenir.

Ce système soulève d’autres inquiétudes, relatives à la liberté d’expression, que Twitter a toujours assuré soutenir. Il s’agit de « trouver le juste équilibre entre notre engagement pour la liberté d’expression et les demandes de nos utilisateurs dans le monde entier pour améliorer leur expérience », estime Audrey Herblin-Stoop, directrice des affaires publiques Twitter France. Un défi complexe, qui nécessitera sans doute des ajustements. « Nous travaillons à un rythme sans précédent, assure-t-elle. Nous apprenons et nous adaptons au fur et à mesure que nous construisons un produit plus fort et plus sûr. »

Le mois dernier, Twitter avait dû renoncer en catastrophe après avoir introduit une fonctionnalité censée protéger les victimes de harcèlement : les utilisateurs ne recevaient plus de notifications quand ils étaient placés par d’autres dans des listes qui pouvaient, dans certains cas, être nommées de façon insultante. Face à la vive réaction de la communauté, expliquant que cela empêchait les victimes de harcèlement de repérer les utilisateurs s’en prenant à elles, Twitter était revenu sur sa décision, évoquant « un faux pas ».

Série de mesures

Ce n’est pas exactement la première fois que Twitter utilise des programmes informatiques pour modérer certains contenus : le réseau social dispose déjà d’outils repérant et supprimant automatiquement des images pédophiles, et d’autres capables de supprimer en masse des comptes liés à l’Etat islamique. Mais c’est la première fois qu’il met en place un système automatique pour surveiller aussi largement les propos et comportements des utilisateurs.

Le nouvel algorithme a commencé à être déployé en langue anglaise et sera fonctionnel en français dans quelques semaines. Twitter a aussi annoncé mercredi d’autres mesures censées assainir le réseau social. Les utilisateurs disposeront notamment de nouveaux filtres de notifications, leur permettant, s’ils le souhaitent, de ne pas recevoir celles provenant d’utilisateurs n’ayant pas de photo de profil, ou n’ayant pas fait vérifier leur numéro de téléphone ou adresse e-mail.