CHERRL: Kontrollierte Analyse von Reward Hacking in LLM-basierten Reinforcement-Learning-Systemen

4. June 20264. June 2026
AI Models, Claude Code, Cybersecurity

CHERRL ermöglicht durch kontrollierte Bias-Injektion eine reproduzierbare Analyse von Reward-Hacking-Mechanismen und automatische Detektion von Exploitations-Beginn in LLM-basiertem Training.

Share on:

Lineare Sonden zur Täuschungserkennung in LLMs zeigen kritische Robustheitslücken

3. June 20263. June 2026
AI Models, Cybersecurity

Lineare Sonden zur Täuschungserkennung in LLMs funktionieren nur auf Trainingsdaten reliabel, nicht aber bei stilistischen Variationen — Style-Augmentation kann die Robustheit aber wiederherstellen.

Share on:

NVIDIA präsentiert OmniDreams: Echtzeit-Weltmodell für autonome Fahrzeugsimulation

3. June 20265. June 2026
AI Models, Claude Code, Cybersecurity

NVIDIAs OmniDreams generiert komplexe Fahrzeugsimulationen in Echtzeit, generalisiert besser auf seltene Szenarien und kann zugleich als Grundlage für effizientere Fahrichtlinienmodelle dienen.

Share on:

Trumps AI-Verordnung eröffnet Spielraum für striktere Regulierung

3. June 20263. June 2026
Cybersecurity, EU AI Act, Regulation

Trumps freiwilliges KI-Vetting-Verfahren schafft institutionelle Grundlagen, auf denen Kongress und Regulatoren später verbindlichere Kontrollmechanismen aufbauen können.

Share on:

OpenAIs Governance-Framework für hochriskante KI-Systeme

1. June 20261. June 2026
EU AI Act, OpenAI, Regulation

OpenAI dokumentiert seine Governance-Praktiken für Frontier-Modelle im Kontext des EU AI Act und kalifornischer Regulierung.

Share on:

Natürliche Sprach-Autoencodierer: Claudias Gedanken lesbar machen

31. May 20261. June 2026
AI Models, Claude AI

Anthropic stellt Natural Language Autoencodierer vor, die Claudias interne Aktivierungen in lesbare Texterklärungen umwandeln. Diese Technologie hat bereits dabei geholfen, Sicherheitsprobleme zu erkennen und das Verhalten von KI-Modellen zu verbessern. Die Methode nutzt zwei spezialisierte Systeme:

Share on:

Claude lernt, warum: Anthropic verbessert KI-Sicherheitstraining durch Prinzipien statt nur Beispiele

31. May 20261. June 2026
AI Models, Claude AI

Anthropic hat sein KI-Sicherheitstraining grundlegend verbessert. Alle Claude-Modelle seit Haiku 4.5 erzielen nun perfekte Ergebnisse beim Alignment-Test und vermeiden Erpressung. Schlüssel zum Erfolg: Prinzipien lehren statt nur Beispiele zeigen, hochwertige Trainingsdaten nutzen und außerhalb beka

Share on:

So haben wir Claude Code Auto-Modus entwickelt: Ein sicherer Weg, Genehmigungen zu überspringen

31. May 20261. June 2026
AI Models, Claude Code, Cybersecurity

Anthropic stellt den neuen Auto-Modus für Claude Code vor, der modellbasierte Klassifizierer einsetzt, um gefährliche Aktionen automatisch zu blockieren und gleichzeitig sichere Operationen ohne Genehmigungsfragen auszuführen. Das System kombiniert eine Prompt-Injection-Sonde auf Eingabeseite mit ei

Share on:

So bauten wir Claude Code Auto-Modus auf: ein sicherer Weg zur Freigabe ohne Genehmigungen

31. May 20261. June 2026
Claude AI, Claude Code, Cybersecurity

Anthropic stellt Claude Code Auto-Modus vor: ein neues Sicherheitsmodell, das intelligente Klassifikatoren nutzt, um gefährliche Aktionen zu blockieren, ohne ständige Benutzer-Genehmigungen zu erzwingen. Ein sicherer Mittelweg zwischen Sandbox-Isolation und unkontrollierter Autonomie.

Share on:

Anthropic sichert KI-Agenten durch Containment-Strategien ab

31. May 20261. June 2026
AI Models, Claude AI, Cybersecurity

Anthropic hat dokumentiert, wie es KI-Agenten in Produkten wie Claude Code und Claude Cowork einzuhegen versucht. Die Strategie basiert auf Containment durch Sandboxes und Zugriffsgrenzen, da die reine Überwachung durch Menschen unzuverlässig ist – Nutzer genehmigen etwa 93 Prozent aller Anfragen oh

Share on:

CHERRL: Kontrollierte Analyse von Reward Hacking in LLM-basierten Reinforcement-Learning-Systemen

Lineare Sonden zur Täuschungserkennung in LLMs zeigen kritische Robustheitslücken

NVIDIA präsentiert OmniDreams: Echtzeit-Weltmodell für autonome Fahrzeugsimulation

Trumps AI-Verordnung eröffnet Spielraum für striktere Regulierung

OpenAIs Governance-Framework für hochriskante KI-Systeme

Natürliche Sprach-Autoencodierer: Claudias Gedanken lesbar machen

Claude lernt, warum: Anthropic verbessert KI-Sicherheitstraining durch Prinzipien statt nur Beispiele

So haben wir Claude Code Auto-Modus entwickelt: Ein sicherer Weg, Genehmigungen zu überspringen

So bauten wir Claude Code Auto-Modus auf: ein sicherer Weg zur Freigabe ohne Genehmigungen

Anthropic sichert KI-Agenten durch Containment-Strategien ab

Lumi AI News

Rechtliches

Themenbereiche