Ein 35B-Agentenmodell mit Horizon-Skalierung und Multi-Teacher-Destillation erreicht vergleichbare Leistung zu 1-Billionen-Parameter-Modellen auf Long-Horizon-Benchmarks.
Die Ausrichtung von Router-Zeilen an den mathematischen Hauptrichtungen ihrer zugeordneten Expert-Matrizen verbessert die Effizienz und Stabilität von Mixture-of-Experts-Modellen.