Auf den Punkt: AWS dokumentiert fünf Resilienz-Muster für produktive LLM-Inferenz, die automatische Cross-Region-Verteilung, Failover und Multi-Model-Orchestrierung kombinieren, um Verfügbarkeit, Latenz und Kosten in Produktion zu optimieren.

AWS dokumentiert fünf praktische Architektur-Muster für produktive generative AI-Anwendungen, die LLM-Inferenz durch Cross-Region-Routing, Failover und Multi-Model-Orchestrierung hochverfügbar und kosteneffizient halten. Die Muster adressieren reale Herausforderungen wie Quota-Erschöpfung, geografische Verteilung und Multi-Tenant-Isolation.

Bei der Architektur von LLM-Inferenz in Produktion orientieren sich Entscheidungen an vier Dimensionen: Verfügbarkeit (Stabilität über Modell-, Region- oder Provider-Ausfälle hinweg), Response Time (gemessen als Time to First Token und Time to Last Token), Kosten pro Token und Request sowie Durchsatz unter Last. Diese Dimensionen sind interdependent — etwa verbessert Cross-Region-Routing Verfügbarkeit und Durchsatz, kann aber Latenz erhöhen.

Amazon Bedrock bietet vollverwaltete Foundation Models mit integrierten Resilienz-Features wie Cross-Region Inference (CRIS). CRIS automatisiert Verkehrsverteilung über Regionen und nutzt dabei Echtzeitfaktoren wie lokale Verfügbarkeit, Latenz und aktuelle Last. Das reduziert manuelle Traffic-Verwaltung und senkt das Risiko von Quota-Limits bei Traffic-Spitzen. Die Muster folgen einem Ansatz vom einfachen zum komplexen („crawl, walk, run”): von nativen Bedrock-Features bis hin zu Multi-Model-Orchestrierung über ein LLM-Gateway.

Im ersten Muster nutzt man Bedrock Cross-Region-Profile, um Durchsatz zu erhöhen und Drosselung innerhalb einer Region zu reduzieren. Weiterführende Muster adressieren Quota-Isolation bei Verkehrsspitzen, geografische Lastverteilung in Multi-Tenant-Umgebungen und intelligentes Request-Routing für Kostenoptimierung. AWS stellt Code-Samples im GitHub-Repository bereit, mit denen CTOs die Muster inkrementell für ihre Applikation evaluieren können. Wichtig: Die Ressourcennutzung (Bedrock-Inference, CloudWatch-Logs) verursacht AWS-Kosten — Code-Cleanup nach Tests ist erforderlich.

Quelle: aws.amazon.com · Erschienen 30. June 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.2.

Share on:

Fünf Resilienz-Muster für LLM-Inference mit Amazon Bedrock und Gateway

Lumi AI News

Rechtliches

Themenbereiche