Strukturbewusstes Curriculum Learning für LLMs über Manifold-Banditen

23. June 202623. June 2026
AI Models, Claude AI

Strukturierte Curriculum-Learning-Strategien, die Aufgabenbeziehungen im latenten Raum nutzen, erzielen bessere Downstream-Performance als reine Schwierigkeitspriorisierung.

Share on:

STARE: Token-Level Stabilitätsverfahren gegen Policy-Entropie-Kollaps in GRPO-Training

18. June 202619. June 2026
AI Models, Claude AI

STARE nutzt Überraschungsmetriken und selektive Advantage-Reweighting, um Policy-Entropie über lange Trainingssequenzen stabil zu halten und dabei Genauigkeit um 4–8 % zu verbessern.

Share on:

ZPPO: Lehrermodelle als Prompts statt als Gradienten

17. June 202617. June 2026
AI Models, Claude AI

ZPPO integriert Lehrermodelle als Prompt-Komponenten statt als Gradienten und verbessert damit die Generalisierung beim Wissenstransfer auf kleine Modelle.

Share on:

RACES: Automatische Komposition überprüfbarer Umgebungen für LLM-Training

11. June 202611. June 2026
AI Models, Claude AI

RACES ermöglicht durch automatische Komposition von 50 Basis-Umgebungen die gleiche Trainings-Leistung wie 300 einzelne Umgebungen.

Share on:

RACES: Verifiable Umgebungen als rekursiv zusammensetzbare Bausteine für LLM-Reasoning

11. June 202611. June 2026
AI Models, Claude AI

RACES ermöglicht die automatische Komposition verifizierbarer Umgebungen durch rekursive Kombination, worauf hin DeepSeek-R1-Distill-Qwen-14B um 3,1 Punkte und Qwen3-14B um 2,3 Punkte bei sechs Benchmarks zulegte.

Share on:

FlowTracer: Gezieltes Reinforcement Learning durch Nachverfolgung von Informationsfluss in LLMs

10. June 202610. June 2026
AI Models, Claude AI, Claude Code

FlowTracer modelliert Informationspropagation als gerichteten Graphen und leitet Token-Credits aus globaler Flussstruktur ab, um Reinforcement-Learning-Signale präzise auf entscheidende Reasoning-Schritte zu konzentrieren.

Share on:

FlowTracer: Gezielte Reinforcement-Learning in LLMs durch Attention-basierte Informationsflussverfolgung

10. June 202610. June 2026
AI Models, Claude Code, Claude Cowork

FlowTracer weist Tokens Credit basierend auf ihrem gemessenen Informationsdurchsatz im Attention-Graphen zu statt alle gleich zu behandeln, was konsistente Leistungsgewinne bei Reasoning-Aufgaben bringt.

Share on:

Reasoning Arena: Anthropic nutzt Paarvergleiche statt Verifikation für LLM-Training

9. June 202610. June 2026
AI Models, Claude AI

Reasoning Arena ersetzt uninformative Rewards durch Head-to-Head-Vergleiche von Lösungsversuchen und reduziert dabei die benötigte Rechenzeit um 27 bis 41 Prozent.

Share on:

Wie Reinforcement-Learning-Umgebungen Trainingsqualität zerstören – praktische Lösungen

5. June 20265. June 2026
AI Models, Claude Code

RL-Umgebungen mit Softwarefehlern (Stale Cache, Reward Hacks, falsche State-Übergänge) erzeugen giftige Trainingsdaten, die Agenten-Training sabotieren – systematische Qualitätsprüfung ist notwendig.

Share on:

CHERRL: Kontrollierte Analyse von Reward Hacking in LLM-basierten Reinforcement-Learning-Systemen

4. June 20264. June 2026
AI Models, Claude Code, Cybersecurity

CHERRL ermöglicht durch kontrollierte Bias-Injektion eine reproduzierbare Analyse von Reward-Hacking-Mechanismen und automatische Detektion von Exploitations-Beginn in LLM-basiertem Training.

Share on:

ThoughtFold: Verkürzte Reasoning-Ketten durch Präferenzlernen

4. June 20264. June 2026
AI Models, Claude AI

ThoughtFold identifiziert und entfernt überflüssige Explorations-Schritte in Reasoning-Ketten, senkt den Token-Verbrauch um 56% bei DeepSeek-R1-Distill-Qwen-7B und erhält dabei State-of-the-Art-Genauigkeit.

Share on:

GRAIL: Verbessertes Reinforcement Learning für mathematisches Reasoning in LLMs

4. June 20264. June 2026
AI Models, Claude AI, Claude Code

GRAIL nutzt Gradient-Aktivierungs-Salienz, um relevante Reasoning-Schritte stärker zu trainieren als irrelevante Token, und erreicht 3,60% Genauigkeitsverbesserung ohne separate Prozess-Level-Überwachung.

Share on:

Strukturbewusstes Curriculum Learning für LLMs über Manifold-Banditen

STARE: Token-Level Stabilitätsverfahren gegen Policy-Entropie-Kollaps in GRPO-Training

ZPPO: Lehrermodelle als Prompts statt als Gradienten

RACES: Automatische Komposition überprüfbarer Umgebungen für LLM-Training

RACES: Verifiable Umgebungen als rekursiv zusammensetzbare Bausteine für LLM-Reasoning

FlowTracer: Gezieltes Reinforcement Learning durch Nachverfolgung von Informationsfluss in LLMs

FlowTracer: Gezielte Reinforcement-Learning in LLMs durch Attention-basierte Informationsflussverfolgung

Reasoning Arena: Anthropic nutzt Paarvergleiche statt Verifikation für LLM-Training

Wie Reinforcement-Learning-Umgebungen Trainingsqualität zerstören – praktische Lösungen

CHERRL: Kontrollierte Analyse von Reward Hacking in LLM-basierten Reinforcement-Learning-Systemen

ThoughtFold: Verkürzte Reasoning-Ketten durch Präferenzlernen

GRAIL: Verbessertes Reinforcement Learning für mathematisches Reasoning in LLMs

Lumi AI News

Rechtliches

Themenbereiche