Tuumast: ViQ kvantiseerib visuaalseid sisendeid suvaliste resolutsioonidega diskreetseteks esitusteks ja saavutab seejuures 20–70% treeningu kiirendust võrreldes pideva pildikooderinguga.
Teadlased tutvustavad ViQd, raamistikku kvantiseeritud visuaalsete esituste jaoks, mis kaardistab teksti ja pilte ühtsesse diskreetsesse vormingus. Süsteem säilitab seejuures nii semantilist teavet kui ka madala taseme detaile originaalse pildilahutusega.
Tuumprobleem seisneb selles, et piltide diskreetiseerimine – sarnaselt teksti-tokendite juures – viib tavaliselt massiivse teabokao. Olemasolevad meetodid ei suuda tasakaalustada rekonstruktiivset esitust (mis säilitab madala taseme detaile, kuid on semantiliselt nõrk) ja semantiliselt tugevaid omadusi (mis kaotavad detaile). ViQ lahendab selle konflikti kahesambalise arhitektuuriga: teksti-orienteeritud eelpädevustamine ja omaduste diskreetiseerimine.
Eelpädevustamise faasis rikastub visuaalne kodeerija eelnevalt treenitud keelemudeliga juhitava järelevalve kaudu, nii et ta tabab semantilist teavet paremini. Samal ajal antakse kodeerile võime töötleda originaalse pildilahutuse piltide. Diskreetiseerimise ajal kasutab ViQ nn Proximal-Representation-Learning strateegiaid, et omaduste ruum järkjärgult tihendada. Täiendav asendi-teadlik pea-kaupa kvantiseerimine võimaldab paindlikku töötlust suvaliste resolutsioonidega – pilte ei tule seega ühtsete suuruste normaliseerida.
Katsetes mitmemodaalsetel ülesannetel saavutab ViQ võrreldava tulemuslikkuse arenenud pideva kodeerijatega, kuid säilitab täpsuse madala taseme pildirekonstitutsioonil. Peamine kasutegur peitub treeningu efektiivsuses: mitmemodaalse treeningu kvantiseeritud visuaalsete esitustega saavutas testides 20–70% kiirendust erinevate LLM-aluste ja treenigireceptide lõikes.