Skip to content

NVIDIA Blackwell Amazon SageMakeris: Mälu ja täpsus suurematele mudelitele

Lühidalt: Blackwelli 180–268 GB mälu GPU kohta võimaldab suuremaid pakke ja pikemaid järjestusi mudeli treenimise ajal, vähendades kommunikatsioonikoormat ja võimaldades ühes sõlmes treenimist mudelitele, mis varem nõudsid mitme sõlmega seadistusi.

Amazon Web Services pakub P6-B200 instantse NVIDIA-Blackwell-GPU-dega Amazon SageMaker AI platvormil. Laiendatud mälumaht ja uued täpsusformaadid võimaldavad treenimispiiranguid vähendada ja mudeleid kuni 64 miljardi parameetriga treenida tõhusamalt.

Amazon SageMaker AI pakub nüüd P6-B200 instantse koos 8 NVIDIA-Blackwell-GPU-ga. Neid instantse saab broneerida Flexible Training Plaani kaudu ning need pakuvad ennustatavaid kulusid ja automatiseeritud ressursihaldust. Pakkumine on suunatud organisatsioonidele, kes treneerivad Transformer-mudeleid 1 kuni 64 miljardi parameetriga.

Blackwelli arhitektuur toob kolm konkreetset mälueelis: B200 pakub 180 GB, B300 isegi 268 GB mälumahtuvust GPU kohta. See võimaldab suuremaid pakke ilma agressiivse mudeli jagamiseta, lihtsustatud paralleliseerimist jagamise astme vähendamise kaudu ja pikemaid konteksti järjestusi kaugelolevatest sõltuvustega ülesannetele. NVLink-5 ühendus pakub kuni 1,8 TB/s kahealalist GPU-st-GPU-le ribalaiust. Viienda põlvkonna Tensor-tuumad ja kahe kiibiga arhitektuur annavad läbilaskevõimu kasvu mitme GPU treenimisele.

PyTorch täielikult hajutatud andmete paralleelse (FSDP) treenimise ajal kasutatakse mälu strateegiliselt: suuremad pakid vähendavad gradiendi sünkroniseerimise samme GPU-de vahel ja parandavad üldist läbilaskevõimu. Lihtsustatud jagamine vähendab GPU-de vahelist kommunikatsioonikoormat, kuna vähem fragmente on vajalik. Pikemad järjestused võimaldavad mudelitel ühe käiguga rohkem konteksti töödelda. Aktiveerimise kontrollpunkt pakub täiendavat mäluoptimeerimist.

Share on: