Auf den Punkt: Decoupled DiLoCo ermöglicht robusteres und flexibleres Training großer KI-Modelle über global verteilte Rechenzentren, indem es Training in unabhängige Compute-Inseln aufteilt und gleichzeitig Kommunikationsverzögerungen minimiert.
Google DeepMind stellt eine innovative Methode vor, die das Training von großen Sprachmodellen fundamental neu gestaltet: Durch die Aufteilung in unabhängige Rechenzonen mit asynchronem Datenaustausch wird die Resilienz drastisch erhöht, während gleichzeitig globale Kommunikationsverzögerungen minimiert werden.
Das Training führender KI-Modelle erforderte bislang ein massiv integriertes System, in dem identische Chips in nahezu perfekter Synchronisation arbeiten müssen. Während diese Methode bei aktuellen Modellen sehr zuverlässig funktioniert, stößt sie bei der Skalierung auf zukünftige Systeme mit Tausenden von Chips an erhebliche logistische Grenzen.
Mit Decoupled DiLoCo (Distributed Low-Communication) präsentiert Google DeepMind eine vielversprechende Lösung. Das System unterteilt große Trainingsläufe in separate „Inseln” unabhängiger Rechenkerne, die asynchrone Datenaustausche durchführen. Dieser Ansatz isoliert lokale Ausfälle, sodass das restliche System ohne Unterbrechung weiterlernen kann. Das Ergebnis ist eine deutlich widerstandsfähigere und adaptivere Methode zum Training hochmoderner Modelle über global verteilte Rechenzentren.
Besonders bedeutsam ist, dass Decoupled DiLoCo die Kommunikationsverzögerungen vermeidet, die verteilte Techniken wie Data-Parallel bislang im globalen Maßstab unpraktisch machten.
Die neue Methode kombiniert zwei frühere Durchbrüche: Pathways, ein asynchrones datenflussbasiertes verteiltes KI-System, und DiLoCo, das die erforderliche Bandbreite zwischen Rechenzentren erheblich reduzierte. Durch die Verbindung dieser Konzepte ermöglicht Decoupled DiLoCo flexibleres Trainieren von KI-Modellen im großen Maßstab.
Das System wurde auf Basis von Pathways entwickelt und unterstützt asynchrones Training über unabhängige Compute-Inseln (Learner Units). Ein Chipausfall in einem Bereich stoppt daher nicht die Fortschritte in anderen Bereichen. Die Infrastruktur ist zudem selbstheilend: Bei Tests simulierte Google DeepMind mit „Chaos Engineering” Hardwareausfälle während des Trainings – mit erfolgreicher Stabilität des Systems.