Zum Inhalt springen

ParallelKernelBench: Frontier-LLMs scheitern noch an schnellen Multi-GPU-Kerneln

Auf den Punkt: Frontier-LLMs lösen weniger als ein Drittel von 87 Multi-GPU-CUDA-Benchmark-Aufgaben, während einige generierte Kernel dennoch öffentliche Referenzimplementierungen übertreffen.

Ein neuer Benchmark testet, wie gut die leistungsfähigsten Sprachmodelle Multi-GPU-CUDA-Kernel schreiben können. Aktuelle frontier-Modelle lösen weniger als ein Drittel der 87 realen Workloads – doch einzelne generierte Kernel übertrumpfen bestehende öffentliche Implementierungen.

Together AI hat ParallelKernelBench entwickelt, einen Benchmark der 87 Workloads aus der Praxis abdeckt. Diese erfordern optimierte Multi-GPU-CUDA-Kernels, um effizient auf mehreren GPUs parallel zu laufen. Das ist eine zentrale Anforderung für skalierbare KI-Systeme und rechenintensive Applikationen.

Die Ergebnisse zeigen: Die besten aktuellen Frontier-Modelle lösen weniger als ein Drittel dieser Aufgaben erfolgreich. Das unterstreicht, dass LLMs bislang nicht konsistent in der Lage sind, hardwaregerechte, performante Parallelisierungscode zu generieren – auch wenn sie in anderen Programmieraufgaben stark sind.

Ein interessanter Nebeneffekt: Einige der von LLMs generierten Kernel übertreffen dokumentierte öffentliche Implementierungen für ihre jeweilige Workload. Das deutet darauf hin, dass Modelle in Einzelfällen kreativen oder unteroptimalen Referenzcode schlagen können. Für Engineers ist dieser Benchmark ein klares Signal: GPU-Kernel-Optimierung bleibt ein Bereich, in dem menschliche Expertise und manuelle Optimierung weiterhin notwendig sind – automatisierung durch LLMs ist hier noch nicht produktionsreif.


Quelle: www.together.ai · Erschienen 23. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on: