Zum Inhalt springen

Offene KI-Modelle im Aufwind: Gemma 4, DeepSeek V4 und weitere Releases

Auf den Punkt: Trotz eines Rekordmonats bei offenen KI-Modellen zeigt CAISIs Bewertung: Der Abstand zur amerikanischen Frontier wächst. Alternative Metriken deuten jedoch auf einen kleineren Rückstand von etwa 3-7 Monaten hin.

Ein rekordverdächtiger Monat in der offenen KI-Entwicklung: Alle großen Labore, einschließlich DeepSeek, veröffentlichten neue Modelle. Das Center for AI Standards and Innovation (CAISI) bewertete diese im Vergleich zur amerikanischen Frontier und kam zu einem ernüchternden Befund.

Der Monat war außergewöhnlich produktiv: Gemma 4, DeepSeek V4, Kimi K2.6, MiMo 2.5 und GLM-5.1 stehen für eine beispiellose Welle neuer offener Modelle. Das Center for AI Standards and Innovation (CAISI), eine Organisation, die bereits zuvor offene Modelle und ihre Risiken bewertet hat, führte eine umfassende Evaluation durch.

Die Ergebnisse zeigen ein gemischtes Bild: Offene Modelle hinken der amerikanischen Frontier weiterhin hinterher, wobei sich dieser Abstand mit der Zeit vergrößert. CAISI nutzte für die Version-4-Bewertung neun verschiedene Benchmarks und berechnete ein Elo-Rating mittels Item Response Theory – eine Methode, die häufig zum Vergleich von Modellen herangezogen wird, auch wenn diese auf völlig unterschiedlichen Benchmark-Suites evaluiert wurden.

Der große Elo-Abstand lässt sich auf mehrere Faktoren zurückführen: DeepSeek V3 zeigte schwache Leistungen bei CTF-Archive-Diamond (das nur teilweise evaluiert und dann mittels IRT extrapoliert wurde), bei PortBench (einem privaten CAISI-Benchmark) sowie bei ARC-AGI-2 (das eine andere Bewertungsmethode als die öffentlichen Leaderboards verwendete). Diese Schwankungen beeinflussen das Gesamtbild erheblich.

Eine alternative Perspektive bietet Epoch AIs ECI-Metrik, die ebenfalls Item Response Theory über diverse Benchmarks hinweg anwendet: Der Abstand zwischen offenen und geschlossenen Modellen beträgt hier etwa drei bis sieben Monate seit R1 – ein deutlich differenzierteres Bild als die reinen Elo-Ratings vermitteln.

Share on:
Schlagwörter: