iLLaDA: 8B-Sprachmodell mit bidirektionaler Diffusion trainiert

25. June 202626. June 2026
AI Models

iLLaDA zeigt, dass vollständig bidirektionales Diffusions-Training von Grund auf ein konkurrenzkräftiger Weg zu starken Sprachmodellen sein kann, auch ohne autoregressives Training.

Share on:

NVIDIA Blackwell auf Amazon SageMaker: Speicher und Precision für größere Modelle

25. June 202625. June 2026
AI Models, Google

Blackwells 180–268 GB Speicher pro GPU erlaubt größere Batch-Größen und längere Sequenzen beim Modelltraining, was Kommunikations-Overhead reduziert und Single-Node-Training für Modelle ermöglicht, die bisher Multi-Node-Setups erforderten.

Share on:

Strukturbewusstes Curriculum Learning für LLMs über Manifold-Banditen

23. June 202623. June 2026
AI Models, Claude AI

Strukturierte Curriculum-Learning-Strategien, die Aufgabenbeziehungen im latenten Raum nutzen, erzielen bessere Downstream-Performance als reine Schwierigkeitspriorisierung.

Share on:

Uniform FP4: Neue 4-Bit-Trainingsmethode für LLMs reduziert systematische Fehler

19. June 202619. June 2026
AI Models, Claude Code

Uniforme 4-Bit-Formate beheben den systematischen Shrinkage-Bias von E2M1 beim FP4-LLM-Training und ermöglichen konsistent bessere Konvergenz über alle Modellgrößen hinweg.

Share on:

STARE: Token-Level Stabilitätsverfahren gegen Policy-Entropie-Kollaps in GRPO-Training

18. June 202619. June 2026
AI Models, Claude AI

STARE nutzt Überraschungsmetriken und selektive Advantage-Reweighting, um Policy-Entropie über lange Trainingssequenzen stabil zu halten und dabei Genauigkeit um 4–8 % zu verbessern.

Share on:

Socratic-SWE: Selbstlernende KI-Agenten für Code-Reparaturen

8. June 20268. June 2026
AI Models, Claude Code

Ein selbstlernender Rahmen für Code-Reparatur-Agenten nutzt deren Lösungsspuren direkt zur gezielten Generierung von Trainingsaufgaben und erreicht damit höhere Genauigkeit als bisherige Ansätze.

Share on:

OPRD: Representation Distillation mit versteckten Zuständen schlägt Output-Only-Methode

5. June 20265. June 2026
AI Models, Claude Code

Hidden-State-Alignment reduziert Sampling-Varianz, schließt die Schüler-Lehrer-Lücke besser und trainiert mit weniger Speicher und Rechenzeit als Output-Only-Distillation.

Share on:

iLLaDA: 8B-Sprachmodell mit bidirektionaler Diffusion trainiert

NVIDIA Blackwell auf Amazon SageMaker: Speicher und Precision für größere Modelle

Strukturbewusstes Curriculum Learning für LLMs über Manifold-Banditen

Uniform FP4: Neue 4-Bit-Trainingsmethode für LLMs reduziert systematische Fehler

STARE: Token-Level Stabilitätsverfahren gegen Policy-Entropie-Kollaps in GRPO-Training

Socratic-SWE: Selbstlernende KI-Agenten für Code-Reparaturen

OPRD: Representation Distillation mit versteckten Zuständen schlägt Output-Only-Methode

Lumi AI News

Rechtliches

Themenbereiche