Zum Inhalt springen

Granite 4.1 LLMs: Wie sie aufgebaut werden

Auf den Punkt: Granite 4.1 sind kompakte Sprachmodelle von IBM mit 3B, 30B und 83B Parametern, trainiert auf 15 Billionen Tokens mit 512K Kontextfenster. Das 8B Instruct-Modell übertrifft das größere Vorgängermodell durch optimierte Dense-Architektur und fortgeschrittene Feinabstimmungs- und Reinforcement-Learning-Techniken.

Ein umfassender technischer Überblick über die Datenverarbeitung, das Vortraining und die Optimierungsprozesse der Granite 4.1 Sprachmodelle von IBM. Die neue Modellreihe demonstriert beeindruckende Leistungen mit deutlich weniger Parametern als bisherige Versionen.

Die Granite 4.1 Familie besteht aus kompakten Decoder-Only-Sprachmodellen in drei Größen: 3 Milliarden, 30 Milliarden und 83 Milliarden Parameter. Das Trainings-Setup basiert auf einer mehrstufigen Vortrainings-Pipeline, bei der die Modelle mit approximately 15 Billionen Tokens trainiert werden.

Ein besonderes Merkmal ist die Erweiterung des Kontextfensters auf bis zu 512.000 Tokens, was deutlich längere Textsequenzen verarbeiten ermöglicht. Nach dem Grundtraining folgt eine Verfeinerungsphase mit überwachtem Fine-Tuning anhand von etwa 4,1 Millionen sorgfältig kuratierten hochwertigen Trainingsmuster.

Das Trainingsverfahren wird durch Reinforcement Learning mit dem GRPO-Algorithmus (auf Policy basierend) und dem DAPO Loss abgeschlossen. Diese Optimierungsmethode hilft den Modellen, ihre Ausgaben weiter zu verbessern.

Besonders bemerkenswert ist die Leistung des 8B Instruct-Modells: Es erreicht oder übertrifft die Ergebnisse des vorherigen Granite 4.0-H-Small mit 32 Milliarden Parametern in einer Mixture-of-Experts-Architektur. Das neue Modell nutzt dagegen eine einfachere, dichtere Architektur mit weniger Gesamtparametern.

Share on:
Schlagwörter: