Skip to content

Asynchrone Pipeline-Parallelisierung für LLM-Vortraining bei Gradient-Verzögerung praktikabel

Auf den Punkt: Asynchrone Pipeline-Parallelisierung mit PipeDream-2BW und neueren Optimizern überwindet die Gradienten-Staleness-Problematik und erlaubt effizientes Pretraining großer Sprachmodelle ohne GPU-Idle-Zeit.

Forscher zeigen, dass asynchrone Pipeline-Parallelisierung beim LLM-Pretraining nicht durch Gradienten-Verzögerung behindert wird, wenn der richtige Optimizer gewählt wird. Mit modernen Optimierungsmethoden wie Muon erreicht man Leistung auf Augenhöhe mit synchronem Training.

Beim Pretraining großer Sprachmodelle (LLMs) kommt Pipeline-Parallelisierung zum Einsatz, um Berechnungen über mehrere GPUs zu verteilen. Synchrone Implementierungen führen jedoch zu „Pipeline Bubbles” – Zeiträumen, in denen GPUs untätig sind und Rechenressourcen verschwendet werden. Asynchrone Varianten wie PipeDream-2BW eliminieren diese Blasen und maximieren den Durchsatz, führen aber zu Gradienten-Staleness: Die Gewichtsaktualisierungen basieren auf veralteten Gradienten.

Bislang galt die Annahme, dass Optimierung unter Gradienten-Staleness grundsätzlich instabil ist und daher nur begrenzte praktische Anwendung hat. Eine neue empirische Analyse widerlegt diese Annahme fundamental: Die Leistungsdegradation unter One-Step-Gradient-Delay hängt stark davon ab, welcher Optimizer verwendet wird. AdamW, der bei der Einführung von PipeDream-2BW vorherrschende Optimizer, zeigt tatsächlich erhebliche Degradation. Neuere Methoden wie Muon dagegen erweisen sich als robust gegen One-Step-Delay.

Die Forscher führen zusätzlich eine Error-Feedback-inspirierte Korrektur ein, die optimizer-agnostisch funktioniert und Verzögerungseffekte weiter mindert. Theoretische Analysen belegen Konvergenz für Muon mit und ohne diese Korrektur. Umfangreiche Evaluierungen an Modellen bis 10 Milliarden Parametern zeigen, dass diese Strategien die Performance-Lücke zu synchronem Training schließen und das praktische Potenzial asynchroner Pipeline-Parallelisierung im großen Maßstab unterstreichen.


Quelle: arxiv.org · Erschienen 28. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.2.

Share on: