US-Gesetzesvorlage macht KI-Risikobericht zur Rechtspflicht

26. June 202626. June 2026
AI Models, Regulation

Das geplante US-Bundesgesetz macht die Meldung schwerwiegender KI-Sicherheitsvorfälle zur rechtlichen Pflicht mit sieben Tagen Frist und Strafen bis 2 Millionen Dollar je Verstoß.

Share on:

Sparse Autoencoders: Interpretierbare Features reichen nicht für zuverlässige Modellkontrolle

18. June 202618. June 2026
AI Models, Cybersecurity, Regulation

SAE-basierte Sicherheitsmaßnahmen sind anfällig für Post-Intervention-Recovery: Modelle können unterdrückte Verhaltensweisen wiederherstellen, obwohl die angegriffenen Features kontrolliert werden.

Share on:

RepSelect: Neuer Ansatz für robustes Unlearning bei Large Language Models

17. June 202617. June 2026
AI Models, Claude AI

RepSelect isoliert forget-set-spezifische Repräsentationen durch selektives Kollabieren von Gradienten-Komponenten und erreicht eine 4-50x höhere Robustheit gegen Relearning-Angriffe als bisherige Verfahren.

Share on:

OpenAI entwickelt Deployment Simulation zur Vorhersage des Modellverhaltens

16. June 202616. June 2026
AI Models, OpenAI

Mit Deployment Simulation lässt sich das Verhalten von KI-Modellen vor dem produktiven Einsatz anhand echter Nutzungsdaten simulieren und bewerten.

Share on:

KI-Sicherheitssysteme als DoS-Ziel: Poisoned Documents lahmen Guardrails

15. June 202615. June 2026
AI Models, Claude Code, Cybersecurity

Vergiftete Dokumente können Reasoning-basierte KI-Guardrails zu DoS-Waffen machen, indem sie Sicherheitssysteme selbst als Ressourcensenke nutzen – ein neuer Angriffsvektor mit Konzentrationrisiken in gemeinsamer Governance-Infrastruktur.

Share on:

US-Regierung verhängt Exportkontrollen gegen Anthropic wegen KI-Sicherheitsbedenken

14. June 202614. June 2026
AI Models, Anthropic, Regulation

Das Weiße Haus zog das Fable-Modell von Anthropic nach Bedenken bezüglich umgehbarer Sicherheitsvorkehrungen mit Exportkontrollen vom Markt, nachdem intensive Verhandlungen zwischen Regierungsbeamten und CEO Amodei fehlschlugen.

Share on:

Anthropic ändert Claude-5-Sicherheitsfilter — weniger versteckte Eingriffe, mehr Transparenz

12. June 202612. June 2026
Anthropic, Claude AI

Anthropic verzichtet auf verdeckte Sicherheitseingriffe in Claude 5 zugunsten transparenter, für den Nutzer erkennbarer Filterentscheidungen.

Share on:

Grammar-Constrained Decoding ermöglicht Jailbreak von LLMs zur Malware-Generierung

11. June 202611. June 2026
AI Models, Claude Code, Cybersecurity

Grammar-Constrained Decoding (GCD), ein Verfahren zur Sicherung syntaktisch korrekten Codes, eröffnet Angreifern eine neue Jailbreak-Methode mit Erfolgsrate über 30 Prozentpunkte höher als bisherige Ansätze.

Share on:

Anthropic veröffentlicht Claude Fable 5 mit differenzierter Cybersecurity-Strategie

10. June 202610. June 2026
Anthropic, Claude AI, Cybersecurity

Anthropic trennt Claude Fable 5 in eine öffentliche (mit Safeguards) und eine restriktive Version (Claude Mythos 5 ohne Sicherheitsschichten) für verifizierten Cybersecurity-Experten.

Share on:

Reasoning-Modelle zeigen versteckte Sicherheitslücken über mehrere Gesprächsrunden

10. June 202610. June 2026
AI Models, Claude AI, Cybersecurity

Multi-Turn-Reasoning-Modelle können sichere Oberflächenmetriken aufrechterhalten, während ihre internen Zustände über Gesprächsrunden hinweg kompromittiert sind oder ihre sichere interne Logik in schädlichen Outputs ignoriert wird.

Share on:

Anthropic veröffentlicht Claude Fable 5 mit umstrittenen Sicherheitsmaßnahmen

9. June 202610. June 2026
Claude AI, Regulation

Claude Fable 5 zeigt erhebliche Leistungssteigerungen gegenüber Vorgängermodellen, während Anthropic gleichzeitig Zugangskontrollen verschärft, die einen regulatorischen Präzedenzfall für die Branche setzen.

Share on:

Anthropic veröffentlicht Fable 5 mit Sicherheitsvorkehrungen gegen Cybersecurity-Missbrauch

9. June 20269. June 2026
AI Models, Claude AI, Cybersecurity

Anthropic veröffentlicht die leistungsfähigere Claude-Variante Fable 5 öffentlich, schleift potenziell gefährliche Cybersecurity-Anfragen aber automatisch auf ein schwächeres Modell um.

Share on:

US-Gesetzesvorlage macht KI-Risikobericht zur Rechtspflicht

Sparse Autoencoders: Interpretierbare Features reichen nicht für zuverlässige Modellkontrolle

RepSelect: Neuer Ansatz für robustes Unlearning bei Large Language Models

OpenAI entwickelt Deployment Simulation zur Vorhersage des Modellverhaltens

KI-Sicherheitssysteme als DoS-Ziel: Poisoned Documents lahmen Guardrails

US-Regierung verhängt Exportkontrollen gegen Anthropic wegen KI-Sicherheitsbedenken

Anthropic ändert Claude-5-Sicherheitsfilter — weniger versteckte Eingriffe, mehr Transparenz

Grammar-Constrained Decoding ermöglicht Jailbreak von LLMs zur Malware-Generierung

Anthropic veröffentlicht Claude Fable 5 mit differenzierter Cybersecurity-Strategie

Reasoning-Modelle zeigen versteckte Sicherheitslücken über mehrere Gesprächsrunden

Anthropic veröffentlicht Claude Fable 5 mit umstrittenen Sicherheitsmaßnahmen

Anthropic veröffentlicht Fable 5 mit Sicherheitsvorkehrungen gegen Cybersecurity-Missbrauch

Lumi AI News

Rechtliches

Themenbereiche