Zum Inhalt springen

NVIDIA Blackwell auf Amazon SageMaker: Speicher und Precision für größere Modelle

Auf den Punkt: Blackwells 180–268 GB Speicher pro GPU erlaubt größere Batch-Größen und längere Sequenzen beim Modelltraining, was Kommunikations-Overhead reduziert und Single-Node-Training für Modelle ermöglicht, die bisher Multi-Node-Setups erforderten.

Amazon Web Services stellt P6-B200 Instanzen mit NVIDIA-Blackwell-GPUs auf SageMaker AI zur Verfügung. Die erweiterte Speicherkapazität und neuen Precision-Formate ermöglichen es, Trainingskonstraints zu reduzieren und Modelle mit bis zu 64 Milliarden Parametern effizienter zu trainieren.

Amazon SageMaker AI bietet ab sofort P6-B200 Instanzen mit je 8 NVIDIA-Blackwell-GPUs an. Diese Instanzen lassen sich über den Flexible Training Plan buchen und bieten vorhersehbare Kosten sowie automatisierte Ressourcenverwaltung. Das Angebot richtet sich an Organisationen, die Transformer-Modelle von 1 bis 64 Milliarden Parametern trainieren.

Blackwells Architektur bringt drei konkrete Speichervorteile: Die B200 bietet 180 GB, die B300 sogar 268 GB Speicherkapazität pro GPU. Dies ermöglicht größere Batch-Größen ohne aggressive Modell-Sharding, vereinfachte Parallelisierung durch reduzierten Sharding-Grad und längere Kontextsequenzen für Tasks mit Fernabhängigkeiten. Die NVLink-5-Verbindung stellt bis zu 1,8 TB/s bidirektionale GPU-to-GPU-Bandbreite bereit. Fünfte-Generation-Tensor-Cores und die Dual-Chip-Architektur liefern Durchsatzgewinne bei Multi-GPU-Training.

Beim Training mit PyTorch Fully Sharded Data Parallel (FSDP) wird der Speicher strategisch eingesetzt: Größere Batch-Größen reduzieren Gradient-Synchronisierungsschritte zwischen GPUs und verbessern den Gesamtdurchsatz. Vereinfachtes Sharding senkt Inter-GPU-Kommunikations-Overhead, da weniger Shards notwendig sind. Längere Sequenzen ermöglichen es Modellen, mehr Kontext in einem Pass zu verarbeiten. Das Activation-Checkpointing bietet zusätzliche Speicheroptimierung.

Für CTOs bedeutet dies: Modelle, die bisher Multi-Node-Setups erforderten, können nun auf einzelnen 8-GPU-Knoten laufen. Dies verkürzt Iterationszyklen, reduziert Netzwerk-Overhead und senkt Infrastrukturkosten. Die Wahl zwischen Batch-Größe, Sequenzlänge und Precision-Format (passend zur Modellgröße) ist entscheidend für das Tuning der Trainings-Konfiguration.


Quelle: aws.amazon.com · Erschienen 25. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on: