iLLaDA zeigt, dass vollständig bidirektionales Diffusions-Training von Grund auf ein konkurrenzkräftiger Weg zu starken Sprachmodellen sein kann, auch ohne autoregressives Training.
Blackwells 180–268 GB Speicher pro GPU erlaubt größere Batch-Größen und längere Sequenzen beim Modelltraining, was Kommunikations-Overhead reduziert und Single-Node-Training für Modelle ermöglicht, die bisher Multi-Node-Setups erforderten.
Strukturierte Curriculum-Learning-Strategien, die Aufgabenbeziehungen im latenten Raum nutzen, erzielen bessere Downstream-Performance als reine Schwierigkeitspriorisierung.
Uniforme 4-Bit-Formate beheben den systematischen Shrinkage-Bias von E2M1 beim FP4-LLM-Training und ermöglichen konsistent bessere Konvergenz über alle Modellgrößen hinweg.
STARE nutzt Überraschungsmetriken und selektive Advantage-Reweighting, um Policy-Entropie über lange Trainingssequenzen stabil zu halten und dabei Genauigkeit um 4–8 % zu verbessern.
Ein selbstlernender Rahmen für Code-Reparatur-Agenten nutzt deren Lösungsspuren direkt zur gezielten Generierung von Trainingsaufgaben und erreicht damit höhere Genauigkeit als bisherige Ansätze.
Hidden-State-Alignment reduziert Sampling-Varianz, schließt die Schüler-Lehrer-Lücke besser und trainiert mit weniger Speicher und Rechenzeit als Output-Only-Distillation.