Variable-Width Transformers: Ungleichmäßige Kapazitätsverteilung über Layern

17. June 202617. June 2026
AI Models

Unterschiedliche Layer erfüllen unterschiedliche Rollen und könnten daher eine ungleichmäßige Verteilung von Parametern und Rechenressourcen ermöglichen als alternative zu konstanter Architektur-Breite.

Share on:

OPRD: Representation Distillation mit versteckten Zuständen schlägt Output-Only-Methode

5. June 20265. June 2026
AI Models, Claude Code

Hidden-State-Alignment reduziert Sampling-Varianz, schließt die Schüler-Lehrer-Lücke besser und trainiert mit weniger Speicher und Rechenzeit als Output-Only-Distillation.

Share on:

ThoughtFold: Verkürzte Reasoning-Ketten durch Präferenzlernen

4. June 20264. June 2026
AI Models, Claude AI

ThoughtFold identifiziert und entfernt überflüssige Explorations-Schritte in Reasoning-Ketten, senkt den Token-Verbrauch um 56% bei DeepSeek-R1-Distill-Qwen-7B und erhält dabei State-of-the-Art-Genauigkeit.

Share on:

Variable-Width Transformers: Ungleichmäßige Kapazitätsverteilung über Layern

OPRD: Representation Distillation mit versteckten Zuständen schlägt Output-Only-Methode

ThoughtFold: Verkürzte Reasoning-Ketten durch Präferenzlernen

Lumi AI News

Rechtliches

Themenbereiche