Auf den Punkt: iLLaDA zeigt, dass vollständig bidirektionales Diffusions-Training von Grund auf ein konkurrenzkräftiger Weg zu starken Sprachmodellen sein kann, auch ohne autoregressives Training.

Forscher präsentieren iLLaDA, ein 8-Milliarden-Parameter-Sprachmodell, das mit vollständig bidirektionaler Aufmerksamkeit und maskierter Diffusion trainiert wurde — nicht mit dem üblichen autoregressiven Ansatz. Das Modell wurde auf 12 Billionen Tokens vortrainiert und auf einem 25-Milliarden-Token-Corpus mit Instruktionen gefeinert.

iLLaDA wurde mit einer maskierten Diffusions-Zielfunktion trainiert, die während des Vortrainings und des überwachten Fine-Tunings (SFT) beibehalten wurde. Das Modell nutzt vollständig bidirektionale Aufmerksamkeit statt der kausal maskierten Aufmerksamkeit, die bei modernen großen Sprachmodellen Standard ist. Zusätzlich wurden variable Generierungslängen für Effizienzsteigerungen implementiert und ein konfidenzbasiertes Bewertungssystem für Multiple-Choice-Aufgaben eingeführt.

Die empirischen Ergebnisse zeigen konsistente Verbesserungen: iLLaDA-Base verbessert sich um 21,6 Punkte auf dem BBH-Benchmark und um 14,9 Punkte auf ARC-Challenge gegenüber dem vorherigen LLaDA-Modell. Die Instruct-Version erreicht Gewinne von 14,5 Punkten auf MATH und 16,5 Punkten auf HumanEval. Diese Zuwächse sind über allgemeine, mathematische und Code-Benchmarks hinweg zu beobachten.

Bemerkenswert ist, dass iLLaDA trotz des nicht-autoregressiven Trainings auf mehreren Benchmarks mit Qwen2.5 7B konkurriert. Dies deutet darauf hin, dass die bidirektionale Diffusions-Architektur eine vielfältige Alternative zur etablierten autoregressiven Factorization darstellen kann. Die Forschung stellt damit die Annahme in Frage, dass Kausalität und autoregressive Dekodierung die einzigen Wege zu leistungsstarken Sprachmodellen sind. Modellgewichte und Code sind über GitHub verfügbar.

Quelle: arxiv.org · Erschienen 23. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on:

iLLaDA: 8B-Sprachmodell mit bidirektionaler Diffusion trainiert

Lumi AI News

Rechtliches

Themenbereiche