Auf den Punkt: ViQ quantisiert visuelle Eingaben auf beliebigen Auflösungen zu diskreten Repräsentationen und erreicht dabei 20–70 % Trainings-Beschleunigung gegenüber kontinuierlichen Bildenkodierungen.

Forscher präsentieren ViQ, ein Framework für quantisierte visuelle Repräsentationen, das Text und Bilder in einem einheitlichen diskreten Format abbildet. Das System bewahrt dabei sowohl semantische Information als auch niedrigstufige Details bei nativer Bildauflösung.

Das Kernproblem besteht darin, dass die Diskretisierung von Bildern – ähnlich wie bei Text-Token – normalerweise zu massivem Informationsverlust führt. Bestehende Verfahren scheitern daran, ein Gleichgewicht zwischen rekonstruktiven Darstellungen (die niedrigstufige Details bewahren, aber semantisch schwach sind) und semantisch starken Features (die Details verlieren) zu finden. ViQ adressiert diesen Konflikt durch eine zweistufige Architektur: Text-ausgerichtete Vortrainierung und Feature-Diskretisierung.

In der Vortrainingsphase wird ein visueller Encoder durch Supervision eines vortrainierten Sprachmodells angereichert, sodass er semantische Information besser erfasst. Gleichzeitig wird der Encoder befähigt, native Bildauflösungen zu verarbeiten. Während der Diskretisierung nutzt ViQ eine sogenannte Proximal-Representation-Learning-Strategie, um den Feature-Space progressiv zu verdichten. Eine zusätzliche Position-aware Head-wise Quantization ermöglicht die flexible Verarbeitung beliebiger Auflösungen – Bilder müssen also nicht auf einheitliche Größen normalisiert werden.

In Experimenten auf multimodalen Aufgaben erreicht ViQ vergleichbare Performance zu fortgeschrittenen kontinuierlichen Encodern, behält aber Präzision bei der niedrigstufigen Bildrekonstruktion. Der Hauptgewinn liegt in der Trainingseffizienz: Multimodales Training mit quantisierten visuellen Repräsentationen erzielte in Tests 20–70 % Beschleunigung über verschiedene LLM-Basen und Trainings-Rezepte hinweg.

Für Ingenieure ist ViQ relevant, weil diskrete, quantisierte Visuelle Repräsentationen die Effizienz von großen Multimodal-Modellen erheblich verbessern können – sei bei Speicher, Rechenzeit oder Kommunikation. Das Framework dokumentiert damit einen praktikablen Weg, Bilder als Tokens zu behandeln, ohne den Informationsverlust zu akzeptieren, den frühere Diskretisierungsverfahren erzwungen haben.

Quelle: arxiv.org · Erschienen 24. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on:

ViQ: Diskrete visuelle Darstellungen auf beliebiger Auflösung

Lumi AI News

Rechtliches

Themenbereiche