Zum Inhalt springen

BadWorld: Neue Angriffsmethode gegen visuelle Weltmodelle enthüllt erhebliche Sicherheitslücken

Auf den Punkt: Visuellen Weltmodellen lassen sich durch visuell unauffällige Bildmanipulationen systematisch zur Generierung fehlerhafter Vorhersagen bewegen, ohne dass dabei zukünftige Daten oder Nutzereingaben bekannt sein müssen.

Forscher haben mit BadWorld ein Adversarial-Framework entwickelt, das visuelle Weltmodelle (VWMs) durch gezielte Perturbationen zum Fehlverhalten bringt – mit erheblichen Konsequenzen für sicherheitskritische Anwendungen.

Visuelle Weltmodelle generieren aus einem einzelnen Eingabebild interaktive, durch Nutzeraktionen gesteuerte Sequenzen zukünftiger Frames. Bislang war unklar, wie widerstandsfähig diese Modelle gegenüber adversarial konstruierten Eingaben sind. Klassische Adversarial-Attacken scheitern bei dieser Aufgabe, weil Angreifer weder die tatsächlichen zukünftigen Videos noch die späteren Nutzereingaben kennen.

BadWorld umgeht diese Hürden durch zwei technische Neuerungen: Eine selbstüberwachte Velocity-Attacke deaktiviert direkt die frühe Denoising-Phase des Modells, ohne dass echte zukünftige Daten vorliegen müssen. Eine trajektorienadaptive Bi-Level-Optimierung erzeugt darüber hinaus Kontrolleingaben, die das Modell unter variierenden Nutzerbefehlen konsistent anfällig machen – also control-agnostische Perturbationen.

Tests an repräsentativen VWMs mit kontinuierlichen und diskreten Steuerungen zeigen erhebliche Anfälligkeit: Für das menschliche Auge kaum erkennbare Bildmodifikationen führen zuverlässig zu katastrophalen Fehlern in den generierten Rollouts. Die Folgen sind unvollständiges Denoising, struktureller Zusammenbruch und Kontrollinkonsistenz – das Modell ignoriert Nutzereingaben oder erzeugt inkoherente Sequenzen.

Für CTOs bedeutet dies: Visuelle Weltmodelle in sicherheitskritischen Systemen (autonome Fahrzeuge, Robotik, Simulation) erfordern robuste Gegenmaßnahmen, bevor sie produktiv eingesetzt werden. Die Forschung dokumentiert aber auch einen praktischen Ansatz für Datenschutz – kontrollierte Adversarial-Perturbationen könnten sensible visuell-räumliche Informationen vor Modellzugriff schützen.


Quelle: arxiv.org · Erschienen 14. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on: