Evaluierungen von KI-Agenten entmystifiziert

31. May 20261. June 2026
AI Models, Claude Code

Agent-Evaluierungen sind komplexer als traditionelle LLM-Tests, da sie mehrere Turns, Tool-Nutzung und Zustandsveränderungen umfassen. Der Schlüssel ist die Unterscheidung zwischen Transcript (aufgezeichnete Interaktionen) und Outcome (tatsächlicher Endzustand), um aussagekräftige Bewertungen zu sch

Share on:

Amazon Bedrock AgentCore: Versionierte Test-Datasets für zuverlässige Agent-Evaluierung

31. May 20261. June 2026
AI Models, Claude Code, Google

Amazon Bedrock AgentCore führt versionierte Test-Datasets ein, die stabile Evaluierung von Agenten ermöglichen. Mit unveränderlichen Versionen für CI/CD-Gates und Draft-Modus für Entwicklung bietet es Ground Truth für verifiable Messungen statt subjektiver Bewertungen – optimal für Inner-Loop-Iterat

Share on:

Bewertung von Deep Agents mit LangSmith auf AWS

31. May 20261. June 2026
AI Models, Claude Code, Google

AWS und LangChain zeigen in einem neuen Leitfaden, wie Entwickler KI-Agenten systematisch evaluieren und überwachen können. Mit LangSmith auf AWS, Amazon Nova 2 Lite und strukturierten Evaluierungsmustern lässt sich die Zuverlässigkeit von komplexen Multi-Step-Agenten deutlich erhöhen – vom Developm

Share on:

REST-API-Proxy für sicheren Zugang zu Amazon SageMaker MLflow

31. May 20261. June 2026
Claude Code, Cybersecurity

Eine Flask-basierte REST-API-Proxy-Lösung ermöglicht Unternehmen sicheren HTTPS-Zugriff auf Amazon SageMaker MLflow ohne direkte SDK-Nutzung. Die Lösung vereint einen Application Load Balancer, einen Flask-Proxy-Service und SageMaker MLflow und erfüllt damit unternehmensweite Sicherheits- und Infras

Share on:

Custom Portal mit eingebetteter Amazon SageMaker AI MLflow App aufbauen

31. May 20261. June 2026
AI Models, Claude Code

Ein Custom Portal mit eingebetteter MLflow-UI bietet ML-Teams eine persistent bookmarkbare URL für Experiment-Tracking. Die Architektur kombiniert React Frontend, Flask Reverse Proxy mit AWS SigV4-Authentifizierung und Application Load Balancer für sichere, zentrale Zugriffsverwaltung über SSO-Integ

Share on:

Was ist Sycophantismus in KI-Modellen?

31. May 20261. June 2026
AI Models

Sycophantismus in KI-Modellen ist die problematische Tendenz, Benutzer zu gefallen indem Aussagen bestätigt werden, unabhängig von ihrer Wahrheit. Dies entsteht durch Alignment-Training und erfordert neue Ansätze zur Sicherung von Faktentreue und objektiver Kommunikation.

Share on:

KI-Systeme: Die Grenzen des Selbstverständnisses

31. May 20261. June 2026
AI Models

KI-Systeme können ihre eigenen Funktionsweisen und Leistungsgrenzen nur begrenzt verstehen und reflektieren. Dies stellt Praktiker vor Herausforderungen bei der Beurteilung von Systemzuverlässigkeit und unterstreicht die Notwendigkeit menschlicher Überprüfung.

Share on:

Multi-Agent-Architektur für langfristige Anwendungsentwicklung

31. May 20261. June 2026
AI Models, Claude AI, Claude Code

Eine neue Multi-Agent-Harness-Architektur mit Planer, Generator und Evaluator ermöglicht es Claude, über Stunden hinweg autonome Full-Stack-Anwendungen zu entwickeln. Schlüssel zum Erfolg sind explizite Kontext-Resets und strukturierte Übergaben zwischen Agenten-Sessions.

Share on:

Claude Code: Qualitätsprobleme gelöst – Ein Update zu den Herausforderungen der letzten Wochen

31. May 20261. June 2026
Claude AI, Claude Code, Claude Cowork

Anthropic behoben drei technische Fehler in Claude Code und zugehörigen Produkten, die zwischen März und April zu Qualitätsverlusten führten. Alle Probleme sind seit 20. April gelöst. Nutzer erhalten Rückerstattung von Nutzungskontingenten.

Share on:

IT-Professional-Digest, Woche 22/2026 — Claude-Trinität, MCP-Workflow, Editor-Auto-Update

27. May 202631. May 2026
Anthropic, Claude AI, Claude Code, Claude Cowork, Editorials

Drei Themen für Engineers und Praktiker:innen, 30 Sekunden Lesezeit, eine Hands-on-Erkenntnis pro Thema. Wöchentlich an IT-Professional-Ebene gerichtet — was diese Woche auf Ihrer Bookmark-Liste landen sollte.

Share on:

KEDB #001 — Nx-Console-Supply-Chain-Angriff: vier Lektionen für CISO-Teams

25. May 202631. May 2026
Cybersecurity, Editorials, NIS2

Im Mai 2026 wurde die VS-Code-Erweiterung Nx Console 18.95.0 kompromittiert und stahl über Auto-Update massenhaft Entwickler-Credentials. Dieser KEDB-Eintrag zieht vier Lektionen für CISO-Teams: unkontrollierte Erweiterungs-Vertrauensketten, Auto-Update als zweischneidiges Schwert, Token-Hygiene und Build-Pipeline-Isolation — mit konkreten Handlungsaufgaben und NIS-2-Bezug.

Share on:

Professionelle WordPress-Portale mit der Claude-Trinität — eine Iterations-Geschichte aus der Praxis

25. May 202631. May 2026
Claude AI, Claude Code, Claude Cowork, Editorials

Wer heute ein professionelles WordPress-Portal aufbauen will, steht vor einer Entscheidung, die seit zwei Jahren falsch gestellt wird. Die übliche Frage lautet: Soll ich es selbst machen oder eine Agentur beauftragen?

Share on:

« Previous
1
…
6
7
8
9
10
…
38
Next »

Evaluierungen von KI-Agenten entmystifiziert

Amazon Bedrock AgentCore: Versionierte Test-Datasets für zuverlässige Agent-Evaluierung

Bewertung von Deep Agents mit LangSmith auf AWS

Custom Portal mit eingebetteter Amazon SageMaker AI MLflow App aufbauen

Was ist Sycophantismus in KI-Modellen?

KI-Systeme: Die Grenzen des Selbstverständnisses

Multi-Agent-Architektur für langfristige Anwendungsentwicklung

Claude Code: Qualitätsprobleme gelöst – Ein Update zu den Herausforderungen der letzten Wochen

IT-Professional-Digest, Woche 22/2026 — Claude-Trinität, MCP-Workflow, Editor-Auto-Update

KEDB #001 — Nx-Console-Supply-Chain-Angriff: vier Lektionen für CISO-Teams

Professionelle WordPress-Portale mit der Claude-Trinität — eine Iterations-Geschichte aus der Praxis

Lumi AI News

Rechtliches

Themenbereiche