InfoKV kombiniert Attention-Scores mit Unsicherheitssignalen zur KV-Cache-Kompression und übertrifft damit reine Attention-basierte Methoden bei langem Reasoning um messbare Margen.
SEVRA spart beim Inferenzen durch selektive Verifikation 26–91 Prozent Tokens ein, ohne die Genauigkeit zu beeinträchtigen, stellt aber längere initiale Lösungsversuche als teilweise kostengünstiger dar.
Ein neuer Benchmark ermöglicht es, die exakte Stelle zu identifizieren, wo medizinische KI-Modelle Halluzinationen produzieren, und gezielt durch Trace-Supervised Fine-Tuning gegenzusteuern.
Microsoft hat mit MAI-Thinking-1 sein erstes Reasoning-Modell mit Fine-Tuning-Kapabilität für Enterprise vorgestellt, das speziell auf Domain-spezifische Anpassungen ausgerichtet ist.