Skip to content

JetSpec: Paralleles Tree Drafting löst Bottleneck in Speculative Decoding

Auf den Punkt: JetSpec überwindet Skalierungsgrenzen von Speculative Decoding durch paralleles Tree Drafting mit kausaler Konditionierung und erreicht bis zu 9,64x Speedup bei LLM-Inferenz.

Forscher der UC Berkeley und Alibaba stellen JetSpec vor, ein Framework, das Speculative Decoding für LLMs mit parallelen Tree-Drafting-Techniken optimiert und dabei die bisherigen Skalierungsgrenzen überwindet. Die Methode erreicht Speedups bis zu 9,64x beim MATH-500-Benchmark auf H100-GPUs.

Speculative Decoding beschleunigt autoregressive Sprachmodelle, indem es mehrere Token parallel entwirft und verifiziert – jedoch stößt dieser Ansatz auf eine Skalierungsmauer: Größere Draft-Budgets bringen nur Geschwindigkeitszuwächse, wenn die Akzeptanzrate hoch bleibt und der Overhead niedrig ist. Bisherige Methoden leiden unter einem Dilemma: Autoregressive Drafter erzeugen pfad-konditionierte Kandidaten mit hoher Akzeptanz, ihre Kosten wachsen aber mit der Tree-Tiefe. Bidirektionale Block-Diffusion-Drafter hingegen generieren alle Positionen in einem Pass, produzieren aber branch-agnostische Marginale, die einzeln plausibel, aber gegenseitig inkonsistent wirken – was das Budget verschwendet.

JetSpec kombiniert die Effizienz des One-Forward-Drafting mit branch-weiser kausaler Konditionierung. Das System trainiert einen kausalen Parallel-Draft-Head über fusionierte Hidden States des gefrorenen Zielmodells und erzeugt Kandidaten-Trees, deren Scores mit der autoregressive Faktorisierung des Zielmodells übereinstimmen. Dies ermöglicht es JetSpec, größere Draft-Budgets in länger akzeptierte Präfixe und höhere End-to-End-Speedups zu konvertieren.

Evaluierungen auf dichten und MoE-Varianten von Qwen3-Modellen zeigen konsistente Vorteile gegenüber bidirektionalen und baum-basierten SD-Baselines über Math-, Coding- und Chat-Benchmarks. Auf H100-GPUs erreicht JetSpec bis zu 9,64x Speedup auf MATH-500 und 4,58x bei offenen Gesprächs-Workloads. Weitere Latenz-Verbesserungen werden unter realistischen Serving-Loads via vLLM-Integration demonstriert. Code und Modelle sind unter https://github.com/hao-ai-lab/JetSpec verfügbar.


Quelle: arxiv.org · Erschienen 24. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on: