Zum Inhalt springen

Multi-Model-Systeme: Kombinieren von LLMs hat fundamental begrenzte Gewinne

Auf den Punkt: Der maximale Genauigkeitsgewinn von Multi-Model-Systemen ist mathematisch gebunden durch beta, die Rate, bei der alle Modelle gleichzeitig falsch liegen – ein Parameter, der klassische Fehlerkorrelations-Metriken nicht erfassen.

Forscher analysieren die Grenzen von Routing-, Voting- und Mixture-of-Agents-Systemen mit 67 Frontier-Modellen und zeigen: Der Genauigkeitsgewinn durch Modellkombination wird durch die Quote gemeinsamer Fehlvorhersagen limitiert, die das Feld bislang kaum misst.

Systeme wie Routing, Voting, Cascades und Mixture-of-Agents, die mehrere Sprachmodelle kombinieren, sollen die Genauigkeit eines einzelnen Modells übersteigen. Eine neue Analyse von 67 Modellen aus 21 Anbietern zeigt jedoch: Die realistische Obergrenze für jeden Gewinn ist 1 − β, wobei β die Quote darstellt, bei der alle beteiligten Modelle die gleiche Anfrage falsch beantworten.

Das Problem liegt darin, dass die übliche Diagnose – durchschnittliche paarweise Fehlerkorrelation ρ – diesen kritischen Wert nicht abbildet. Zwei Fehlerdistributionen können identische Marginalverteilungen und paarweise Korrelationen haben, aber unterschiedliche Raten für Co-Failures aufweisen. Dies führt zu systematischer Unterschätzung der All-wrong-Tail-Wahrscheinlichkeit. In der mathematischen Open-End-Aufgabengruppe beispielsweise beobachteten die Forscher β = 0,052, während ein Gaussian-Copula-Modell mit allen 67 Modellen nur β = 0,023 vorhersagte – eine Unterschätzung um das 2,5-Fache (90%-KI: 1,7–3,4, k = 17). Bei Code-Aufgaben mit Ausführungsvalidierung stieg β sogar auf 0,079.

Ein weiteres Ergebnis betrifft die Formatabhängigkeit von Co-Failures: Beim GPQA-Diamond-Datensatz zeigte sich, dass die Umformulierung von Multiple-Choice zu freier Antwort β von 0,023 auf 0,127 erhöhte – ein Indiz dafür, dass die gemeinsamen Fehler eher im Antwortformat als im Wissensdefizit verankert sind. Ein fünf-köpfiges Richterpanel erreichte dabei Cohen’s Kappa von 0,73–0,92.

Praktisch bedeutet dies: Mit starker Query-Level-Routing-Information können heterogene Ensembles mit niedriger Fehlerkorrelation Self-MoA-Systeme übertreffen. Allerdings zeigt sich in der Analyse überprüfbarer Aufgaben, dass Modellkombination in der Regel den einzelnen besten Modell nicht schlägt – es sei denn, die beteiligten Modelle scheitern systematisch bei unterschiedlichen Fragen. Größere Ensembles bringen keinen Vorteil, wenn sich ihre Fehler überlappen.


Quelle: arxiv.org · Erschienen 24. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on: