Ce mardi 28 février, de nombreux sites et services en ligne ont connu d’importantes perturbations, liées à un dysfonctionnement d’un service d’Amazon utilisé par de très nombreuses entreprises. « Simple Storage Service », ou S3, est un très populaire service d’hébergement, qui a bâti son succès sur des tarifs très compétitifs et un taux de disponibilité très élevé. Peu connu du grand public, S3 est un géant, et de son bon fonctionnement dépendent de très nombreux autres services.

La panne qui l’a touché ce 28 février a eu des conséquences pour de nombreuses PME, mais aussi pour de grands services comme Instagram, Slack ou ImgUr. Même le site Isitdownrightnow, qui permet de vérifier si un site est inaccessible à tous ses utilisateurs ou simplement à quelques-uns, a lui aussi été rendu inaccessible.

Réaction en chaîne

Amazon a annoncé ce 2 mars que la panne avait été causée par une simple erreur humaine, lors d’une opération de maintenance de routine. « Un membre de l’équipe S3 [...] a lancé une commande pour retirer un petit nombre de serveurs d’un sous-système gérant la facturation de S3. Malheureusement, l’une des commandes a été entrée de manière erronée, et un nombre plus élevé que prévu de serveurs a été retiré », écrit l’entreprise.

L’erreur a déclenché une réaction en chaîne qui a paralysé une bonne partie de l’infrastructure de S3 pendant plusieurs heures. Amazon affirme avoir tiré les conséquences de cette erreur, et avoir modifié ses outils internes pour éviter qu’elle puisse se reproduire.