
➡️ Vos réponses rapides :
Amazon fait un grand pas dans la lutte des puces d’IA avec le lancement de ses serveurs Trainium3 UltraServer, une puce qui promet des performances quatre fois supérieures et une réduction des coûts de formation des modèles jusqu’à 50%.
Lors de la conférence annuelle AWS re:Invent 2025 qui se tient à Las Vegas, Amazon Web Services (AWS) a dévoilé mardi une série d’annonces majeures qui positionnent l’entreprise comme un acteur de plus en plus sérieux face à la domination de Nvidia dans le secteur des accélérateurs d’IA. Au cœur de ces annonces, la puce Trainium3, gravée en 3 nanomètres, et les serveurs UltraServer qui l’hébergent.
Les nouveaux serveurs Amazon EC2 Trn3 UltraServer, désormais disponibles au grand public, représentent un bond technologique significatif. Chaque puce Trainium3 offre 2,52 pétaflops de puissance de calcul en FP8, avec une mémoire HBM3e de 144 Go et une bande passante de 4,9 To/s. Mais c’est l’architecture système qui impressionne vraiment. En effet, un seul UltraServer peut intégrer jusqu’à 144 puces Trainium3, délivrant ainsi 362 pétaflops au total.
Cette concentration de puissance se traduit par des gains remarquables. Amazon annonce des performances jusqu’à 4,4 fois supérieures à la génération Trainium2 précédente, avec une efficacité énergétique quatre fois meilleure et une bande passante mémoire multipliée par quatre. Dans les tests internes réalisés sur le modèle open-weight GPT-OSS d’OpenAI, les équipes d’AWS ont mesuré un débit trois fois supérieur par puce et des temps de réponse d’inférence quatre fois plus rapides.
Trainium3 UltraServers now available: Enabling customers to train and deploy AI models faster at lower cost. #AWSreInvent ⬇️ https://t.co/YV8iUyKUB8
— Amazon News (@amazonnews) December 2, 2025
Les premiers utilisateurs de Trainium3 témoignent de résultats concrets. Anthropic, Karakuri, Metagenomi, NetoAI, Ricoh et Splash Music rapportent des réductions de coûts d’entraînement et d’inférence allant jusqu’à 50%. Un cas d’usage particulièrement impressionnant est celui de Decart, une startup spécialisée dans la vidéo générative en temps réel, qui affirme atteindre une génération d’images quatre fois plus rapide pour moitié moins cher que sur GPU.
Amazon Bedrock, la plateforme d’IA d’AWS, utilise déjà Trainium3 pour ses charges de travail en production, ce qui témoigne de la maturité de la technologie. La puce est optimisée pour les nouvelles classes d’applications d’IA telles que des agents autonomes, des modèles de type mixture-of-experts, un apprentissage par renforcement à grande échelle et une architectures à contexte long.
Pour accélérer les communications entre puces, AWS a développé le NeuronSwitch-v1, un réseau en topologie all-to-all qui double la bande passante inter-puces par rapport à la génération précédente. Cette innovation permet d’atteindre une latence inférieure à 10 microsecondes entre les puces, un facteur critique pour l’entraînement de modèles massifs.
Mais AWS ne compte pas se limiter à ses propres puces. L’entreprise a également annoncé la disponibilité des serveurs P6e-GB300 UltraServer, équipés de la plateforme Nvidia GB300 NVL72 basée sur l’architecture Blackwell, décrite comme l’architecture GPU Nvidia la plus avancée disponible sur Amazon EC2. Cette double stratégie permet à AWS d’offrir le choix à ses clients, tout en développant progressivement son indépendance vis-à-vis de Nvidia.
Dans un geste qui a surpris l’industrie, le PDG d’AWS Matt Garman a dévoilé que les travaux sur Trainium4 étaient déjà bien avancés. Cette quatrième génération offrira au moins trois fois plus de puissance de traitement FP8 et quatre fois plus de bande passante mémoire que Trainium3. Encore plus remarquable, Trainium4 sera conçu pour supporter la technologie d’interconnexion NVLink Fusion de Nvidia, permettant ainsi une intégration transparente avec les systèmes Nvidia.
Ainsi, plutôt que de forcer les clients à choisir entre AWS et Nvidia, Amazon adopte une approche hybride qui pourrait séduire les grandes entreprises cherchant la flexibilité et souhaitant éviter le verrouillage technologique.

Au-delà des puces, AWS a également présenté quatre nouveaux modèles Nova 2 :
L’annonce la plus significative reste toutefois Nova Forge, un service permettant aux organisations de créer leurs propres variantes de modèles Nova en injectant leurs données propriétaires à différentes étapes de l’entraînement, pour 100 000 dollars par an. Reddit, Booking.com, Sony et d’autres entreprises testent déjà cette approche pour construire des modèles spécialisés qui comprennent profondément leurs données métier.
Enfin, AWS a lancé AI Factories, une offre permettant de déployer une infrastructure IA complète directement dans les centres de données des clients. Cette solution cible principalement les gouvernements et les industries réglementées qui exigent une souveraineté totale des données et une conformité stricte. L’infrastructure fonctionne comme une région AWS privée, combinant les accélérateurs Trainium et Nvidia avec les services AWS comme Bedrock et SageMaker.
Avec cet arsenal d’annonces, AWS démontre qu’il ne souhaite plus être simplement un fournisseur de cloud qui loue les GPU d’autres fabricants. L’entreprise construit méthodiquement son propre écosystème d’IA, des puces à l’infrastructure en passant par les modèles, tout en maintenant la compatibilité avec les leaders du marché comme Nvidia.


