Kokkuvõttes: Asünkroonne torujada-paralleelne töötlemine koos PipeDream-2BW ja uuemate optimeerijatega ületab gradiendi aegunud probleemi ja võimaldab tõhusa suure keelemudelis eelkoolitust ilma GPU-i jõude ajata.

Teadlased näitavad, et asünkroonne torujada-paralleelne töötlemine LLM-eelkoolituse ajal ei ole gradiendi viivituse poolt takistatud, kui valitakse õige optimeerija. Kaasaegsete optimeerimismeetoditega nagu Muon saavutatakse jõudlus, mis on võrdne sünkroonse treeninguga.

Suurte keelemudelite (LLM-ide) eelkoolitamisel kasutatakse torujada-paralleelset töötlemist arvutuste jaotamiseks mitme GPU-i vahel. Sünkroonsed rakendused põhjustavad aga „torujada mullid” – ajavahemikud, mil GPU-d on jõude ja arvutusressursid raisku lähevad. Asünkroonsed variandid nagu PipeDream-2BW neid mullifaase kaovad ja maksimeerivad läbilaskevõimet, kuid viivad gradiendi aegumiseni: massi uuendused põhinevad aegunud gradientidel.

Seni eeldati, et optimeerimata gradiendi aegumise korral on põhimõtteliselt ebastabiilne ja seega on ainult piiratud praktiline rakendamine. Uus empiiriline analüüs kumutab seda eeldust fundamentaalselt: jõudluse halvenemise üheastmelise gradiendi viivituse korral sõltub see suuresti kasutamisele kuuluvast optimeerijast. AdamW, mis oli PipeDream-2BW kasutusele võtmise ajal prevailiv optimeerija, näitab tegelikult olulist halvenemist. Uuemad meetodid nagu Muon on seevastu üheastmelise viivituse suhtes vastupidavad.

Teadlased kasutavad täiendavalt veatekitamise inspireeritud parandust, mis töötab optimeerija-agnostiliselt ja vähendab viivituse mõjusid. Teoreetilised analüüsid näitavad Muoni konvergentsi koos ja ilma selle paranduseta. Ulatuslikud hindamised mudelitele kuni 10 miljardi parameetriga näitavad, et need strateegiad sulgevad jõudluse lõhe sünkroonse treeningu suhtes ja rõhutavad asünkroonse torujada-paralleelse töötlemise praktilist potentsiaali suurel skaalal.

Allikas: arxiv.org · Ilmunud 28. juunil 2026
Lumi AI News — tehisintellektiga toetatud kureerimine kooskõlas EU AI Act artikliga 50. Parafraas ja klassifikatsioon Lumi News Pipeline v1.7.2 abil.

Share on:

Asünkroonne torujada-paralleelne töötlemine LLM-eelkoolitusele gradiendi viivituse korral praktikajärgne

Lumi AI News

Õiguslik

Teemavaldkonnad