ViQ quantisiert visuelle Eingaben auf beliebigen Auflösungen zu diskreten Repräsentationen und erreicht dabei 20–70 % Trainings-Beschleunigung gegenüber kontinuierlichen Bildenkodierungen.
InternVideo3 ermöglicht Foundation-Modellen, längere Videosequenzen mit iterativem Reasoning und Werkzeugnutzung zu analysieren, ohne dabei in Effizienzprobleme bei der KV-Cache-Verwaltung zu geraten.