Des processeurs moins énergivores pour diminuer l’empreinte du cloud

Le recours à une nouvelle génération de processeurs permet aux opérateurs de cloud d’améliorer la performance de leurs services. En réduisant par ailleurs l’énergie électrique consommée à usage et à périmètre équivalents, les investissements consentis dans ce domaine pourraient être une opportunité pour eux de réduire l’empreinte énergétique de leurs services et des usages associés chez leurs clients. Retour en synthèse avec AdVaes sur les initiatives dans ce domaine, les premiers indicateurs comparatifs relevés, les tendances et les impacts associés.

Le monde des processeurs et des puces électroniques est en pleine effervescence : une fabrication mondiale sous tension, de nouveaux usages qui changent la donne, des attentes fortes en termes de performance, de fiabilité et de qualité de production, de nouveaux entrants sur le marché, des états qui en font un enjeu économique stratégique [1], et de multiples impacts environnementaux (consommation en énergie, en eau, en métaux rares, érosion des terres, déchets…) qui ne peuvent plus être délaissés.

Depuis quelques années, les opérateurs de cloud public poussent les concepteurs et les fabricants (fondeurs) de ce secteur à innover (AMD, Intel, Nvidia, TSMC, Samsung...) par les partenariats qu’ils ont établis de longue date avec eux, dont l’un des derniers majeurs est celui d’IBM avec Intel ou encore celui de Nvidia avec Fujitsu et Google Cloud entre autres. Ils dynamisent ce marché non seulement par leurs besoins croissants - le marché du cloud public devrait quasiment doubler entre 2018 et 2022 au niveau mondial - mais aussi en devenant eux-mêmes concepteurs de processeurs.

L’évolution du chiffre d’affaires sur cinq ans de Nvidia montre la part croissante dédiée au segment des centres de données pour son activité. Entre avril 2016 et janvier 2021, celle-ci est passée de 6,2% à plus de 38% du chiffre d’affaires mondial de la société (cf. graphique). Cette évolution est soutenue par la demande pour le système GPU NVIDIA A100 de la part des hyperscalers et des industries verticales, ces dernières représentant plus de 50% de cette activité (cf. calcul intensif, services financiers, Internet grand public).

Par les investissements qu’ils consentent dans ce domaine, les opérateurs de cloud cherchent avant tout à :

Optimiser la performance de leur plate-forme et de leurs services. La puce Inferentia, utilisée pour l’assistant vocal Alexa d’Amazon et dédiée à l’inférence d’algorithmes, permettrait d’accélérer les prédictions issues des inférences grâce à des centaines de TOPS (Tera Operations per second). Par rapport à des instances avec GPU, elle accélérerait les débits de 25% à 30% [3] ;

Être moins dépendants et à la merci d’un marché très concurrentiel, concentré dans les mains de quelques grands acteurs, et de plus en plus confronté à de fortes tensions sur les productions.

Des usages de plus en plus “gourmands” en ressources favorisent cette dynamique :

Calcul haute performance (HPC) ;
Apprentissage profond ou deep learning ;
Entraînement de modèles d’intelligence artificielle (IA) ;
Modélisation ;
Workloads à forte intensité de calcul graphique (cf. vidéo ou streaming) ;
Bases de données (BDD) haute performance ;
Bases de données (BDD) en mémoire ;
Caches web distribués en mémoire ;
Analyses de big data en temps réel ;
Stockage par bloc...

A titre d’exemple, pour l’entraînement de charges de travail dédiés à l’intelligence artificielle (IA), la puce d’entraînement Habana Gaudi a été primée pour ses capacités de traitement à grande échelle qui en fait l’une des puces leaders du marché utilisée par AWS (cf. instances Amazon EC2) [2].

De son côté, Google a créé le Cloud TPU (Tensor Processing Unit), un circuit intégré spécialisé dédié à l’apprentissage machine (machine learning) adapté à ses produits Google Traduction, Google Photos, son moteur de recherche ou encore Gmail. Microsoft et TSMC ont lancé un laboratoire d’innovation commun afin de concevoir des solutions optimisées pour le cloud, notamment autour d’Azure. [1]

Alibaba investit via T-Head, sa division dédiée aux semi-conducteurs, dans le standard ouvert RISC-V. Lors de la conférence Hot Chips de 2020, la société a annoncé la sortie d’un processeur ultra-haute performance avec un moteur d'accélération pour IA.

Au-delà de la recherche de performance, la volonté de réduire la consommation énergétique à charge équivalente est à suivre. Dans un premier temps, les progrès réalisés sur ce registre ne sont pas envisagés par les opérateurs de cloud sous le prisme de la réduction de l’empreinte énergétique mais plus sous celui de gains économiques.

Même si ces potentielles réductions de l’empreinte énergétique commencent à être regardées, elles ne le sont encore que de manière très parcellaire dans les approches des opérateurs de cloud. Pour être effectives, elles impliquent en parallèle une évolution aussi dans les modèles d’usage de leurs services.

Parmi les initiatives d’optimisation énergétique (combinée à la recherche d’indépendance), il faut noter celle portée par l’EPI (European Processor Initiative) dont l’objectif est de créer des processeurs à basse consommation pour le traitement intensif de très gros volumes de données et pour les supercalculateurs.

Le cas des architectures Arm

Microsoft et AWS ont annoncé des investissements stratégiques dans le domaine des architectures Arm. Les processeurs Arm sont notamment utilisés dans des milliards de téléphones mobiles et autres appareils électroniques. La société Bamboo Systems, qui les utilise pour ses systèmes, avance jusqu’à 60% de gains en performance et en consommation énergétique par rapport à d’autres processeurs (cf. Intel x86), et avec un gain par ailleurs en densité (de 40% d’espace) permettant de réduire la taille des équipements dans lesquels ils sont intégrés avec les effets induits associés (cf. transport, stockage, refroidissement…).

AWS a investi dans ces technologies suite au rachat en 2015 de la société israélienne Annapurna Labs. Aujourd’hui, la société serait le plus important utilisateur de serveurs Arm au monde pour ses centres de données. AWS développe et assemble en propre son processeur Graviton. La deuxième génération de ce processeur, Graviton 2, serait 20% plus rapide que la première génération, Graviton 1, et plus économe en énergie que Cascade Lake d’Intel ou Rome d’AMD sur une architecture x86 [4]. Il serait aussi 2,7 à 3,5 fois plus performant par watt consommé comparé aux autres processeurs disponibles sur AWS [5]. Fin 2020, Graviton était utilisé par 10% des instances cloud d’AWS (cf. graphique).

Le grand défi des nano-puces

Lors d’une conférence organisée par Planet Tech’Care sur les technologies pour une IA frugale en énergie, Julie Grollier, Responsable de l’équipe “Nanocomposants pour le traitement cognitif de l’information de l’Unité mixte de physique CNRS/Thales”, est revenue sur les apports des nano-dispositifs pour le calcul neuromorphique (nano devices for neuromorphic computing).

L’IA nécessite le transfert permanent de données entre mémoire et calcul. Or, les accès mémoire consomment beaucoup d’énergie. Pour réaliser des architectures plus économes en énergie, il faut partir, selon elle, sur des configurations à base de puces neuromorphiques. Les nano-neurones restent un grand défi car ils recourent à des nano-composants qui, même s’ils gagnent en maturité, sont encore énormément bruités, imparfaits et très différents les uns des autres (problèmes de défauts, d’arrêt de fonctionnement…). Concevoir des puces nano-morphiques de basse consommation nécessite d’agir sur toutes les strates impliquées selon une approche interdisciplinaire (des équipements/matériaux physiques aux logiciels, en passant par les circuits, codes d’information, architectures…).

Réaliser une telle puce "verte" nano-morphique à très faible énergie - division par 100 de la consommation énergétique et multiplication par 100 de la vitesse de traitement par rapport aux architectures actuelles - pourrait s’envisager au niveau industriel d’ici 3 ans, au-delà avec de l’apprentissage. Très sensible aux ondes électromagnétiques, elle ne peut être cependant utilisée qu’avec un blindage autour pour éviter les perturbations.

Pour une IA plus économe en énergie, Alexandre Valentian, ingénieur-chercheur au CEA-LETI intervenant aussi à cette conférence, indique que le calcul devra de plus en plus être déporté sur les composants eux-mêmes. En effet, la consommation d’énergie vient essentiellement du déplacement des données : il y aurait un facteur 1000 avec un traitement local sans déplacement.

Selon lui, les tendances en matière d’IA sont les suivantes :

Aujourd’hui, la plupart des tâches d'inférence et celles d’apprentissage de l’IA ont lieu dans le cloud car elles demandent beaucoup de puissance de calcul (base de données, CPU, GPU…) ;

D’ici 2030, de plus en plus d’inférences pourraient devenir locales avec la montée en puissance du edge computing tout en conservant un apprentissage de l’IA dans le cloud (cf. voiture autonome) : l’apprentissage se fera en continu dans le cloud mais l’inférence sera déportée en bord de réseau pour des raisons de latences faibles, de prise rapide de décision, de sûreté de fonctionnement ou encore de vie privée ;

Vers 2055, les inférences et l’apprentissage de l’IA pourraient se faire en local.

Rapprocher la mémoire le plus possible des éléments de calcul, utiliser des mémoires non volatiles (near memory computing) et, l’ultime, faire du calcul dans les mémoires (in-memory compute - IMC), avec la possibilité de faire des opérations en parallèle, permettrait de réaliser des gains considérables en temps de calcul et en énergie.

Maîtriser les effets et les impacts induits

Ces gains ne peuvent se concrétiser que si, en parallèle du déploiement de ces nouvelles générations de processeurs, moins énergivores et plus performants, les usages associés sont maîtrisés au risque d’annuler les apports annoncés. Les actions doivent s’accompagner d’une maîtrise renforcée des usages qui en sont faits. Les opérateurs de cloud peuvent être acteurs de ce processus en aidant leurs clients en ce sens par la suggestion de modèles permettant d’optimiser et d’ajuster leurs usages, et ce, dans le respect d’une démarche plus sobre et raisonnée. Ils ont une opportunité à saisir pour jouer un rôle clé afin d’éviter une course en avant qui irait à l’encontre des engagements qu’ils soutiennent aujourd’hui en matière d’éco-responsabilité et de durabilité.

En amont, la fabrication des puces électroniques a aussi des impacts environnementaux conséquents. Au-delà des GES émis par une consommation d’électricité très carbonée encore aujourd’hui, elle est très gourmande en eau [6]. Le cas de Taïwan est emblématique. Premier fabricant de puces au monde, Taïwan fait face à une pénurie en eau historique, conséquence du changement climatique. Début mars 2021, certains réservoirs en eau étaient à moins de 20% de leurs capacités et les solutions adoptées en regard pour y faire face ont un impact tant au niveau environnemental que des populations [7].

Au-delà, c’est toute une chaîne qui doit être analysée en intégrant les impacts sur l’érosion des terres (cf. sable pour la fabrication du silicium), la raréfaction de certains métaux (or, cuivre, palladium…), la consommation en eau, le transport des sites de production aux sites d’assemblage et de déploiement, les déchets (la production de deux grammes de puce électronique se traduirait par le rejet de deux kilos de matériaux).

Alors que la demande en composants explose dans le monde, et devrait continuer à croître par le développement des usages numériques, des objets connectés, de l’edge computing et des intégrations croissantes de composants électroniques dans les produits de la vie quotidienne, favoriser une consommation raisonnée, recycler le plus possible ceux en fin de vie, prolonger leur durée de vie en leur octroyant des usages alternatifs, améliorer les performances énergétiques pour des objectifs durables sont autant de voies que les grands acteurs du cloud qui les consomment doivent désormais inscrire à leur plan de route stratégique.

[1] A lire, l’excellent récapitulatif sur l’industrie mondiale des circuits électroniques rédigé par Louis Naugès

[2] Forbes – The Cambiran AI Landscape: Intel

[3] LeMagIT – AWS gonfle les capacités de SageMaker

[4] AWS - [5] AWS re:Invent 2020 - Infrastructure keynote with Peter DeSantis

[6] Selon ChannelNews, “en 2019, TSMC consommait ainsi l’équivalent de 50 piscines olympiques par jour”.

[7] Le Monde - La sécheresse à Taïwan, une nouvelle menace sur la production des puces électroniques

Vous avez aimé cette analyse, n'hésitez pas à la partager