Skip to content

JetSpec: paralleelne puu-draftimine lahendab pudelikaela spekulatiivses dekodeerimises

Kokkuvõttes: JetSpec ületab spekulatiivse dekodeerimise skaleeritavuse piiranguid paralleelse puu-draftimisega ja kausaalse tingimustusvõimega, saavutades kuni 9,64x kiirenduse LLM-inferentsis.

UC Berkeley ja Alibaba teadlased esitavad JetSpeci, raamistiku, mis optimeerib spekulatiivset dekodeerimist suurte keelemudelite jaoks paralleelse puu-draftimise tehnikate abil ja ületab seni kehtinud skaleeritavuse piirangud. Meetod saavutab kuni 9,64x kiirenduse MATH-500 benchmark-teljel H100 GPU-del.

Spekulatiivne dekodeerimine kiirendab autoregressiivseid keelemudeleid, valminud mitme tokeni paralleelselt ja kinnitades – kuid see lähenemisviis satub skaleeritavuse seina: suuremad draftimise eelarved toovad kiiruse juurdekasvu, kui aktsepteerimisnäitaja jääb kõrgeks ja pealekulu madalaiks. Varasemates meetodites esineb dilemma: autoregressiivsed draftijad tekitavad tee-tingimuslikud kandidaadid kõrge aktsepteerimise määraga, kuid nende kulud kasvavad puu-sügavuse järgi. Kahesuunalised ploki difusiooni-draftijad aga genereerivad kõik positsioonid ühes läbis, kuid tekitavad haru-agnostilisi marginaale, mis on üksikult tõepärased, kuid üksteise suhtes vastuolulised – see raiskab eelarvet.

JetSpec kombineerib ühekordse edasi-suunalise draftimise tõhususe harude kaupa kausaalse tingimustusvõimega. Süsteem treenib kausaalse paralleelse draftimise pead üle külmutatud sihtmudeli ühendatud peidetud olekute ja tekitab kandidaatide-puud, mille skoorid on kooskõlas sihtmudeli autoregressiivse faktoriseerimisega. See võimaldab JetSpecil suuremad draftimise eelarved konverteerida pikemalt aktsepteeritud eesliitedeks ja suuremateks otsast-otsa kiirendusteks.

Hindamised Qwen3-mudelite tihedate ja MoE variantide peal näitavad järjepidevaid eeliseid kahealuse ja puu-põhiste SD-alglahenduste ees matemaatika-, kodeeriamis- ja vestlus-benchmark-telgedel. H100 GPU-del saavutab JetSpec kuni 9,64x kiirenduse MATH-500 ja 4,58x avatud vestluse töökoormustel. Täiendavad latentsi parandused tulenevad realistlike teeninduslastide alt läbi vLLM-integreerimise. Kood ja mudelid on saadaval https://github.com/hao-ai-lab/JetSpec.


Allikas: arxiv.org · Avaldatud 24. juunil 2026
Lumi AI News — KI-abil kurateeritud vastavalt EU AI Act-i artikli 50 nõuetele. Parafraas ja klassifikatsioon Lumi News Pipeline v1.7.1 kaudu.

Share on: