Apple nutzt Vision-LLMs für Siri-Integration ohne Änderungen in bestehenden Apps und stellt Core AI PyTorch Extensions bereit, um Entwicklern eigene Modelle auf Apple-Hardware auszuführen.
Ein selbstlernender Rahmen für Code-Reparatur-Agenten nutzt deren Lösungsspuren direkt zur gezielten Generierung von Trainingsaufgaben und erreicht damit höhere Genauigkeit als bisherige Ansätze.
Während Video-Generierungsmodelle visuell überzeugende Bewegungen erzeugen, korreliert visuelle Qualität nicht mit der praktischen Ausführbarkeit durch Roboter — ein Evaluierungskriterium, das Standard-Metriken übersehen.
Google veröffentlicht Gemma 4 12B als Apache-2.0-lizenziertes Multimodal-Modell mit vereinheitlichter Architektur, das mit 16 GB VRAM lokal auf Laptops läuft und Text, Bild, Audio und Reasoning kombiniert.
Hidden-State-Alignment reduziert Sampling-Varianz, schließt die Schüler-Lehrer-Lücke besser und trainiert mit weniger Speicher und Rechenzeit als Output-Only-Distillation.
STRIDE formalisiert Trainingsdatenzuordnung als Sparse-Recovery-Problem im Aktivierungsraum und erreicht dabei eine Größenordnung schneller Ergebnisse als gradientbasierte Verfahren.
Streaming-basiertes Multi-Agent-Reasoning reduziert Latenz durch Pipelinisierung und verbessert gleichzeitig Genauigkeit, weil frühe zuverlässigere Reasoning-Schritte vor fehlerhaften späteren Schritten schützen.
KVarN reduziert durch verbesserte Token-Scale-Normalisierung die Fehlerakkumulation beim Quantisieren von KV-Caches auf 2-Bit-Genauigkeit und erreicht State-of-the-Art-Ergebnisse auf MATH500, AIME24 und HumanEval.
Gemma 4 12B läuft auf Standard-Laptops mit 16 GB RAM und ermöglicht über die LiteRT-LM CLI lokale API-Endpunkte für agentengesteuerte Workflows ohne Cloud-Abhängigkeit.
Mit SFT und DPO lässt sich die Werkzeugwahl von Language Models zielgerichtet trainieren, ohne dass eigene Trainingsinfrastruktur verwaltet werden muss.