Ein 35B-Agentenmodell mit Horizon-Skalierung und Multi-Teacher-Destillation erreicht vergleichbare Leistung zu 1-Billionen-Parameter-Modellen auf Long-Horizon-Benchmarks.
Unterschiedliche Layer erfüllen unterschiedliche Rollen und könnten daher eine ungleichmäßige Verteilung von Parametern und Rechenressourcen ermöglichen als alternative zu konstanter Architektur-Breite.