Auf den Punkt: Output-Kompression reduziert Inferenzkosten effektiv, während Input-Kompression die Gesamtkosten erhöht und die Antwortqualität verschlechtert.
Eine Studie evaluiert die Auswirkung sprachlicher Kompression auf Kosten und Genauigkeit von großen Sprachmodellen. Dabei zeigt sich: Output-Kompression reduziert Inferenzkosten um das 1,4- bis 2,4-fache, Input-Kompression hingegen erhöht sie um etwa 1,15-fache und verschlechtert gleichzeitig die Antwortqualität.
Das Protokoll „Cavewoman” evaluiert, wie acht Sprachmodelle auf fünf Datensätzen bei fünf Kompressionsstufen reagieren. Dabei werden zwei Kanäle getrennt gemessen: die Eingabeaufforderung (Input) und die generierte Antwort (Output). Jede Generation wird nach Aufgabengenauigkeit, realisierter Pro-Item-Kosten und Übereinstimmung mit einer unkomprimierten Referenzerzeugung des Modells bewertet.
Output-Kompression zeigt durchweg positive Effekte: Bei den meisten API-Modellen senkt sie die realisierten Kosten um das 1,4- bis 2,4-fache, im besten Fall um das 3-fache. Auch bei allen vier evaluierten Open-Weight-Modellen unter öffentlicher Preisgestaltung reduzieren sich die Kosten. Das bekannte Prinzip „Talk short. Drop grammar. Save token” funktioniert also beim Output tatsächlich.
Input-Kompression führt dagegen zum gegenteiligen Ergebnis: Sie erzeugt ein striktes Verlust-Szenario. Die Nettkosten steigen um etwa 1,15-fache im Durchschnitt über fünf Benchmarks, im schlechtesten Fall um das 1,8-fache, unter stärkerer Kompression sogar um das 2,7-fache. Der Grund: Modelle kompensieren die verkürzten Eingaben durch längere Antworten, während gleichzeitig die Antwortgenauigkeit sinkt.
Ein weiteres Problem tritt bei Input-Kompression auf: Die Oberflächenform der generierten Texte weicht von der unkomprimierten Referenzerzeugung des Modells ab. Bei Non-Reasoning-Modellen ist etwa die Hälfte aller Generationen inhaltlich korrekt, aber ihr Wortlaut entspricht nicht mehr dem, was das Modell ohne Eingabekompression generiert hätte. Diese Divergenz bleibt auch bei längenkontrollierter Neubewertung und unter komplementären semantischen Maßstäben bestehen.
Quelle: arxiv.org · Erschienen 22. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.