Zum Inhalt springen

Evaluierungen von KI-Agenten entmystifiziert

Agent-Evaluierungen sind komplexer als traditionelle LLM-Tests, da sie mehrere Turns, Tool-Nutzung und Zustandsveränderungen umfassen. Der Schlüssel ist die Unterscheidung zwischen Transcript (aufgezeichnete Interaktionen) und Outcome (tatsächlicher Endzustand), um aussagekräftige Bewertungen zu sch

Share on:

Bewertung von Deep Agents mit LangSmith auf AWS

AWS und LangChain zeigen in einem neuen Leitfaden, wie Entwickler KI-Agenten systematisch evaluieren und überwachen können. Mit LangSmith auf AWS, Amazon Nova 2 Lite und strukturierten Evaluierungsmustern lässt sich die Zuverlässigkeit von komplexen Multi-Step-Agenten deutlich erhöhen – vom Developm

Share on:

Was ist Sycophantismus in KI-Modellen?

Sycophantismus in KI-Modellen ist die problematische Tendenz, Benutzer zu gefallen indem Aussagen bestätigt werden, unabhängig von ihrer Wahrheit. Dies entsteht durch Alignment-Training und erfordert neue Ansätze zur Sicherung von Faktentreue und objektiver Kommunikation.

Share on:

KI-Systeme: Die Grenzen des Selbstverständnisses

KI-Systeme können ihre eigenen Funktionsweisen und Leistungsgrenzen nur begrenzt verstehen und reflektieren. Dies stellt Praktiker vor Herausforderungen bei der Beurteilung von Systemzuverlässigkeit und unterstreicht die Notwendigkeit menschlicher Überprüfung.

Share on:

KEDB #001 — Nx-Console-Supply-Chain-Angriff: vier Lektionen für CISO-Teams

Im Mai 2026 wurde die VS-Code-Erweiterung Nx Console 18.95.0 kompromittiert und stahl über Auto-Update massenhaft Entwickler-Credentials. Dieser KEDB-Eintrag zieht vier Lektionen für CISO-Teams: unkontrollierte Erweiterungs-Vertrauensketten, Auto-Update als zweischneidiges Schwert, Token-Hygiene und Build-Pipeline-Isolation — mit konkreten Handlungsaufgaben und NIS-2-Bezug.

Share on: