Depuis des années, géants du Web et start-up spécialisées s’affrontent, à grand renfort de communiqués triomphants, pour affirmer que leur outil de traduction automatique est supérieur aux autres. Dernier épisode en date : le lancement de DeepL, mardi 29 août, une société européenne qui revendique un service « trois fois plus performant que celui de Google ». Malgré la nouveauté du nom, elle n’est pas inconnue puisqu’elle propose déjà le dictionnaire en ligne linguee.com.

DeepL a puisé dans sa formidable base de données issue du site Linguee pour s’entraîner

Tous ces services utilisent désormais des technologies similaires, fondées sur l’apprentissage automatisé (« deep learning », ou réseaux de neurones artificiels), une révolution récente, notamment connue pour avoir permis de battre les meilleurs joueurs de go. Elle permet aussi aux assistants vocaux d’obéir à leur maître, ou aux voitures, d’avancer sans pilote… Pour la traduction, c’est seulement en 2014 qu’un schéma, proposé par l’université de Montréal, a fait faire un saut qualitatif aux outils automatiques. Les groupes majeurs du secteur de l’informatique les ont rapidement adoptés et perfectionnés avant de les mettre à disposition en ligne depuis quelques mois seulement. DeepL s’inspire de ce principe mais n’en communique pas pour l’instant les détails. Une chose est sûre, il a puisé dans sa formidable base de données – issue du site de traduction Linguee – pour s’entraîner et apprendre.

Pour nous faire une idée plus précise, nous avons effectué un test simple et efficace (bien que nécessairement limité) : nous avons fait traduire à ces logiciels une série de textes de l’anglais vers le français, en puisant dans différents registres d’écriture, allant de la poésie aux documentations techniques. Nous avons testé cinq services : DeepL, les services de traduction de Google, Bing, Yandex et Baidu (déployez les fenêtres pour pouvoir comparer les textes). Ces tests sont loin d’être exhaustifs, mais permettent de voir quelles sont les différences entre ces services dans le cadre d’un usage « du quotidien ». A noter que DeepL propose pour l’instant seulement sept langues (français, anglais, allemand, italien, polonais, néerlandais et espagnol).

Poésie. Confrontés à un poème d’Emily Dickinson, To Make a Prairie, les différents traducteurs se sont emmêlé les pinceaux. Si le texte original est bref et ne comporte pas de pièges de traduction, ni Bing ni Baidu ne sont parvenus à traduire le terme « revery » (« rêverie «), certes peu usité, et Yandex n’a tout simplement pas compris la dernière partie du poème. Google traduction s’en est à peine mieux sorti, avec une traduction très personnelle de « revery » par « convivialité » et un problème sur l’expression « will do » (« suffira », et non « fera »). DeepL, quant à lui, a traduit correctement l’essentiel du poème, à une erreur près : l’absence d’un déterminant aux troisième et quatrième lignes, erreur qu’aucun traducteur humain n’aurait faite.

Documentation technique. C’est le point fort des outils de traduction automatique : confrontés à un texte simple (en l’occurrence, un extrait du manuel de la PlayStation 4), tous se sont bien sortis d’affaire. A noter, l’extrait ne comportait pas de vocabulaire technique spécifique – si vous devez régulièrement traduire des textes avec de nombreux mots spécifiques à un corps de métier, les résultats peuvent être beaucoup plus variables.

Article de presse. Un extrait d’un article sur l’interprétation d’une tablette babylonienne a donné du fil à retordre aux traducteurs automatiques. DeepL s’en est mieux tiré que ses concurrents, là aussi en faisant une maladresse de traduction qu’un traducteur humain n’aurait pas faite (les « sept merveilles de l’ancien monde » aurait plutôt été traduite par « les sept merveilles du monde » ou « de l’Antiquité »). Bing a glissé deux contresens dans sa traduction (« supportée » et « convaincus »). Google a quant à lui commis un contresens dès le premier mot (« fabled », faux-ami signifiant « célèbre », traduit par « fable »). Les deux américains s’en tirent cependant un peu mieux que Baidu et Yandex, dont les traductions sont bien moins compréhensibles que le théorème de Pythagore.

Texte à la première personne. Sur un bref extrait d’une tribune, au style sobre d’un ministre, DeepL a également obtenu de meilleurs résultats que les autres services, grâce à des tournures de phrase plus « françaises » et en évitant un petit piège : les quatre autres ont traduit « to discuss these issues further » par « discuter de ces questions plus loin », ce qui n’est pas correct. DeepL a lui correctement traduit par « discuter de ces questions plus en profondeur ». Néanmoins, Google et Bing ont fait montre de style en évitant les répétitions, « J’admire et respecte » au lieu de « J’admire et je respecte » pour DeepL.

Compte rendu sportif. C’est de très loin le texte qui a posé le plus de problèmes aux cinq outils, qui s’écartent de leurs performances poétiques ou techniques. La verve du commentateur du Guardian résumant la finale de la Coupe du monde de rugby entre l’Angleterre et la Nouvelle-Zélande a eu raison de leurs e-neurones. DeepL traduit « tacle » au lieu de « plaque ». Google tire un coup de fusil, au lieu de taper au pied. Bing déguise en « mouche » une demie d’ouverture (« fly-half », en anglais). Baidu et Yandex sont K.-O., dès les premières minutes du match, enchaînant les erreurs, les en-avant et non-sens.

Conclusion. Il est toujours facile de leurrer un traducteur automatique, et même quand les phrases sont correctes, sur la longueur, le lecteur ressent le côté froid de la machine. Néanmoins, les progrès sont réels, comme le montrent les résultats à des tests normalisés pour évaluer avec rigueur la qualité des outils. Lors de la mise en ligne de son nouvel algorithme fin 2016, Google avait gagné plusieurs points au test dit BLEU. DeepL communique qu’elle a encore progressé à ce test, surpassant de près de trois points le meilleur des algorithmes publiés de l’anglais vers l’allemand et de plus de trois points, de l’anglais vers le français. Tout en restant loin des performances humaines.