Google et Facebook mettent à mal l’infaillibilité informatique…

  • Dernière modification de la publication :12/06/2021
  • Commentaires de la publication :3 commentaires
Un centre d’interconnexion et de données.
Un centre d’interconnexion et de données.

On est habitué à penser qu’un ordinateur calcule juste. Des observations des ingénieurs de Google et de Facebook constatent toutefois que certains cœurs de microprocesseurs peuvent produire des erreurs «silencieuses». Dans une certaine mesure, ils tirent la sonnette d’alarme!

Dans un article technique en lien ci-dessous dévoilé lors de la conférence Hot Topics in Operating Systems (HotOS), trois ingénieurs de Google veulent alerter les fabricants de composants électroniques sur des comportements insoupçonnés jusqu’ici. En effet de telles erreurs de calcul peuvent irrémédiablement détruire des données si elles interviennent par exemple pendant un processus de cryptage…

Dizaines d’ingénieurs sur le pont

«Alors que la fabrication des puces évolue vers des tailles de caractéristiques plus petites et des structures de calcul plus élaborées, et que des paires instruction-silicium de plus en plus spécialisées sont introduites pour améliorer les performances, nous avons observé des erreurs de calcul éphémères qui n’ont pas été détectées lors des tests de fabrication», indiquent ces ingénieurs.

«Ces défauts ne peuvent pas toujours être corrigés par des techniques telles que les mises à jour du microprogramme, et peuvent être corrélés à des composants spécifiques du processeur, ce qui permet à de petites modifications du code d’entraîner de grandes variations de la fiabilité. Pire encore, ces défaillances sont souvent “silencieuses” — le seul symptôme est un calcul erroné.», soulignent une partie des dizaines d’ingénieurs de Google assignés à ce problème…

Plus important que prévu

«Une enquête plus approfondie a révélé l’existence de plusieurs types d’erreurs d’exécution corrompues. L’incidence détectée est beaucoup plus élevée que ce à quoi s’attendent les ingénieurs logiciels. Il ne s’agit pas simplement d’augmentations progressives du taux d’erreurs matérielles. Ces erreurs peuvent se manifester longtemps après l’installation initiale. Elles affectent généralement des cœurs spécifiques sur les processeurs multicœurs, plutôt que la puce entière», détaillent les spécialistes.

«Pour des raisons commerciales, nous ne sommes pas en mesure de révéler les taux exacts de ces erreurs d’exécution silencieuses, mais nous observons un taux de l’ordre de quelques cœurs problématiques pour plusieurs milliers de machines, soit un taux similaire à celui rapporté par Facebook. Le problème est suffisamment sérieux pour que nous y ayons consacré plusieurs dizaines d’ingénieurs», souligne Google.

Nouveaux problèmes inquiétants…

Alors que nous savons depuis longtemps que les dispositifs de stockage et les réseaux peuvent corrompre les données au repos ou en transit, nous avons l’habitude de considérer les processeurs comme des dispositifs à arrêt automatique. C’est-à-dire qu’en cas d’erreur, ces processeurs déclenchent des contrôles pour rétablir des calculs corrects.

Que penser? Les chercheurs de Google et de Facebook sont parvenus à mettre en évidence ces problèmes sur d’immenses centres de traitement de données et mettent en œuvre différentes mesures pour tenter d’éviter le pire. En Suisse, contacté pour ce problème, Infomaniak, par exemple, n’a pas été en mesure de constater ces défaillances et souligne le caractère exceptionnel de ces problèmes.

Toujours plus d’erreurs…

A l’heure de la course à la miniaturisation et de la très balbutiante «intelligence artificielle», ce constat est à prendre au sérieux. Infotmaticien.be, qui a attiré notre attention sur ce point, titre d’ailleurs: «Les processeurs calculent de manière incorrecte de plus en plus fréquemment et de manière imprévisible ».

Que se passerait-il en cas de conjugaison de différents facteurs comme des lignes de codes bugées qui ont généré une forme d’intelligence artificielle corrompue reposant notamment sur un cœur de processeur produisant des erreurs « silencieuses »… A bon entendeur.

Pour aller plus loin:

Cet article a 3 commentaires

    1. Nathan

      Non, dans ce cas il s’agit d’erreurs qui ne sont pas liées à l’architecture du processeur.

  1. Space Boy

    haha..ca me fait penser à une histoire des années 90s comme quoi la lune ou les éruptions solaires pouvaient swapper un bit de 0 à 1 (ou inverse). Sans explication évidemment du pourquoi. Juste un calcul faux. Loin pour dire que tous les bugs d’informatique sont lié à la main divine qui secoue les bits dans le processeur.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.