Auf den Punkt: EfficientRollout nutzt selbstspekulative Dekodierung mit adaptiver Systemauslastung, um Rollout-Latenz in RL-Szenarien zu senken, ohne separate Drafter-Pretraining oder das Zielmodell zu gefährden.
Ein neuer Ansatz reduziert die Latenz bei der Generierung von Rollouts für verstärkendes Lernen in großen Sprachmodellen um bis zu 19,6 % – indem das Modell selbst als schneller Entwurfsgenerator (Drafter) fungiert und Spekulation nur in effizienten Situationen aktiviert wird.
Rollout-Generierung ist bei Reinforcement Learning (RL) mit großen Sprachmodellen ein Engpass: Weil Dekodierung autoregressive Token einzeln nacheinander sampelt, bestimmen einzelne lange Ausgabesequenzen die Gesamtlatenz. Spekulative Dekodierung (SD) ist ein etabliertes Verfahren zur Latenzreduktion bei festgelegten Modellen – ein schneller Drafter erzeugt Token-Entwürfe parallel, ein Verifier akzeptiert sie oder lehnt sie ab, alles bei Erhalt der Zielverteilung.
Die direkte Anwendung auf RL-Rollouts scheitert jedoch an zwei Problemen: (1) Die Zielrichtlinie ändert sich während des Trainings; ein feststehender Drafter wird daher zunehmend fehlgeleitet und erzeugt Entwürfe, die nicht zur aktuellen Policy passen. (2) Die Batch-Größe sinkt während der Rollout-Dekodierung, sodass der Speicher zum Engpass wird – die Parallelisierung des Verifiers kann ungenutzte Rechenkapazität nicht nutzen.
EfficientRollout ist ein systemabhängiges Rahmenwerk für selbstspekulative Dekodierung: Der Drafter wird als quantisierte Version des Zielmodells generiert und bleibt dadurch an die evolvierende Policy gekoppelt, ohne separates Pretraining. Das System koordiniert eine adaptive Spekulations-Aktivierungsrichtlinie und passt die Entwurfslänge basierend auf Verifier-Akzeptanzraten an. Spekulation wird nur in rechengebundenen Szenarien aktiviert, wo parallele Verifikation tatsächliche Gewinne bringt.
In Experimenten reduziert EfficientRollout die reine Rollout-Latenz um bis zu 19,6 % und die End-to-End-Latenz (einschließlich Training) um bis zu 12,7 % gegenüber einem beschleunigten autoregressiven Baseline-System, während die finale Modellqualität erhalten bleibt. Der Ansatz löst das Verteilungsmatch-Problem durch Selbstquantisierung und das Speicher-Compute-Problem durch adaptives Gating.
Quelle: arxiv.org · Erschienen 16. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.