Auf den Punkt: Output-Kompression reduziert Inferenzkosten um 1,4–3x, Input-Kompression erhöht sie um durchschnittlich 1,15x, weil Modelle mit längeren Antworten auf ungenaue Prompts reagieren.
Eine Studie zeigt, dass vereinfachte Eingabe-Prompts („Sprich kurz, ohne Grammatik") bei Large Language Models nicht zu Kosteneinsparungen führt, sondern diese erhöhen — während Output-Kompression dagegen wirksam ist.
Das Evaluations-Protokoll „Cavewoman” hat systematisch untersucht, wie acht LLMs auf Sprachkompression in zwei Kanälen reagieren: Eingabe-Prompts und generierte Ausgabe. Die Forscher testeten fünf Kompressionsstufen auf fünf Datensätzen und erfassten dabei Task-Genauigkeit, tatsächliche Kosten pro Element sowie semantische Übereinstimmung mit unkomprimierter Referenzausgabe.
Output-Kompression — also die Anweisung, kürzere Antworten zu liefern — senkt die realisierten Kosten bei den meisten API-Modellen um 1,4–2,4x pro Modell, in optimalen Fällen um 3x. Alle vier getesteten Open-Weight-Modelle zeigten unter öffentlichen Preismodellen ebenfalls Kostenersparnis. Input-Kompression hingegen hat gegenteilige Auswirkung: Modelle generieren längere Antworten als Kompensation für unterspecifizierte Prompts und erhöhen damit die Nettokosten um durchschnittlich 1,15x — im schlechtesten Fall um 1,8x, unter aggressiver Kompression sogar um 2,7x — während gleichzeitig die Task-Genauigkeit sinkt.
Zusätzlich zeigt die Analyse ein semantisches Problem: Bei nicht-Reasoning-Modellen weichen etwa die Hälfte aller komprimierten Generierungen oberflächlich vom unkomprimierten Baseline ab, obwohl sie die Task noch formal lösen. Diese Divergenz bleibt auch nach Längennormalisierung, statistischer Korrektur und Validierung durch alternative Semantik-Metriken bestehen.
Quelle: arxiv.org · Erschienen 22. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.