NEUSWE-Together: Benchmark für Coding-Agenten in interaktiven Nutzersitzungen

30. June 202630. June 2026
AI Models, Claude Code

SWE-Together misst die Leistung von Coding-Agenten über mehrere Interaktionsrunden hinweg, wie sie in echter Nutzung vorkommen, statt nur das Endergebnis einer einmaligen Aufgabe zu bewerten.

Share on:

NEUAsynchrone Pipeline-Parallelisierung für LLM-Vortraining bei Gradient-Verzögerung praktikabel

30. June 202630. June 2026
AI Models, Claude Code

Asynchrone Pipeline-Parallelisierung mit PipeDream-2BW und neueren Optimizern überwindet die Gradienten-Staleness-Problematik und erlaubt effizientes Pretraining großer Sprachmodelle ohne GPU-Idle-Zeit.

Share on:

NEUVision-AI-Agenten: Synthetic Data und Fine-Tuning für höhere Genauigkeit

30. June 202630. June 2026
AI Models, Claude Code

Vision-AI-Agenten brauchen systematische Wege zur Datensynthese und Fine-Tuning, um seltene Fälle zu erkennen und sich an lokale Bedingungen anzupassen.

Share on:

Ornith-1.0: Open-Source-Modell für agentengesteuerte Softwareentwicklung

29. June 202629. June 2026
AI Models, Claude Code

Ornith-1.0 bietet in den Größen 9B, 31B, 35B MoE und 397B MoE agentengesteuerte Fähigkeiten für Code-Aufgaben und erreicht bei vergleichbarer Größe State-of-the-Art-Performance auf Coding-Benchmarks.

Share on:

Lokale Sprachmodelle in die Anwendung integrieren: Von Ollama zum produktiven Code

28. June 202628. June 2026
AI Models, Claude Code

Die Qualität lokaler Open-Source-LLMs hängt weniger vom Modell ab als vielmehr von der Codequalität, Fehlerbehandlung und API-Integration rund um die Modellanfrage.

Share on:

InfoKV: Entropie-basierte KV-Cache-Kompression für lange Reasoning-Sequenzen

26. June 202626. June 2026
AI Models, Claude Code

InfoKV kombiniert Attention-Scores mit Unsicherheitssignalen zur KV-Cache-Kompression und übertrifft damit reine Attention-basierte Methoden bei langem Reasoning um messbare Margen.

Share on:

JetSpec: Paralleles Tree Drafting löst Bottleneck in Speculative Decoding

26. June 202626. June 2026
AI Models, Claude AI

JetSpec überwindet Skalierungsgrenzen von Speculative Decoding durch paralleles Tree Drafting mit kausaler Konditionierung und erreicht bis zu 9,64x Speedup bei LLM-Inferenz.

Share on:

OpenBioRQ: Benchmark für agentenbasierte biomedizinische Forschungsfragen

26. June 202626. June 2026
AI Models, Claude AI, Claude Code

OpenBioRQ zeigt, dass agentenbasierte KI-Modelle bei komplexen biomedizinischen Forschungsfragen bei etwa 40% versagen und gerade bei schwierigen Aufgaben ihre Werkzeuge nicht mehr einsetzen, obwohl diese am wichtigsten wären.

Share on:

ViQ: Diskrete visuelle Darstellungen auf beliebiger Auflösung

26. June 202626. June 2026
AI Models, Claude Code

ViQ quantisiert visuelle Eingaben auf beliebigen Auflösungen zu diskreten Repräsentationen und erreicht dabei 20–70 % Trainings-Beschleunigung gegenüber kontinuierlichen Bildenkodierungen.

Share on:

Tool-Calling-Ausfälle unter Schema-Constraints in Open-Weight LLMs

25. June 202626. June 2026
AI Models, Claude Code

JSON-Schema-Constraints kompilieren Tool-Call-Tokens in unerreichbare Bereiche des Token-Raums, worauf Modelle Funktionsaufrufe supprimieren, obwohl beide Funktionen isoliert funktionieren.

Share on:

NatureBench: Wie weit Coding-Agenten in wissenschaftlichen Aufgaben wirklich kommen

24. June 202624. June 2026
AI Models, Claude AI, Claude Code

KI-Agenten übertreffen Baseline auf nur knapp 18 Prozent echter wissenschaftlicher Aufgaben, weil sie Probleme eher neu rahmen als wirklich innovativ lösen.

Share on:

ParallelKernelBench: Frontier-LLMs scheitern noch an schnellen Multi-GPU-Kerneln

23. June 202623. June 2026
AI Models, Claude Code, OpenAI

Frontier-LLMs lösen weniger als ein Drittel von 87 Multi-GPU-CUDA-Benchmark-Aufgaben, während einige generierte Kernel dennoch öffentliche Referenzimplementierungen übertreffen.

Share on:

NEUSWE-Together: Benchmark für Coding-Agenten in interaktiven Nutzersitzungen

NEUAsynchrone Pipeline-Parallelisierung für LLM-Vortraining bei Gradient-Verzögerung praktikabel

NEUVision-AI-Agenten: Synthetic Data und Fine-Tuning für höhere Genauigkeit

Ornith-1.0: Open-Source-Modell für agentengesteuerte Softwareentwicklung

Lokale Sprachmodelle in die Anwendung integrieren: Von Ollama zum produktiven Code

InfoKV: Entropie-basierte KV-Cache-Kompression für lange Reasoning-Sequenzen

JetSpec: Paralleles Tree Drafting löst Bottleneck in Speculative Decoding

OpenBioRQ: Benchmark für agentenbasierte biomedizinische Forschungsfragen

ViQ: Diskrete visuelle Darstellungen auf beliebiger Auflösung

Tool-Calling-Ausfälle unter Schema-Constraints in Open-Weight LLMs

NatureBench: Wie weit Coding-Agenten in wissenschaftlichen Aufgaben wirklich kommen

ParallelKernelBench: Frontier-LLMs scheitern noch an schnellen Multi-GPU-Kerneln

Lumi AI News

Rechtliches

Themenbereiche