Auf den Punkt: Ein zweistufiger Pipeline mit Amazon Nova 2 Lite für strukturierte Extraktion und Claude Sonnet 3.5 für räumliches Reasoning reduziert Dokumentendigitalisierungskosten um zwei Drittel.
Amazon zeigt ein zweistufiges Verfahren zur automatisierten Digitalisierung von gescannten Dokumenten mit kombinierten KI-Modellen: Nova 2 Lite erkennt Fotos und Namen, Claude führt räumliche Analysen durch. Die Kombination spart etwa zwei Drittel der Kosten gegenüber einem Single-Model-Ansatz.
Amazon hat auf AWS Bedrock einen Produktionsprozess umgesetzt, um gescannte Jahrbuchseiten automatisiert zu digitalisieren. Die erste Stufe nutzt Amazon Nova 2 Lite, um auf einer Seite mehrere Aufgaben in einem einzigen API-Aufruf zu erledigen: nativ multimodale Erkennung von Fotografien mit Bounding Boxes, Extraktion von sichtbarem Text (Namen) mit Positionsangaben sowie Erfassung von Metadaten wie Titel und Kategorien. Das Modell wurde auf LOW-Reasoning konfiguriert, da Tests über alle 336 Testseiten hinweg keinen signifikanten Genauigkeitsverlust zeigten, diese Einstellung aber die Token-Kosten minimiert.
In der zweiten Stufe analysiert Claude Sonnet 3.5 die räumliche Anordnung: Anhand der Namen-Positionen und Foto-Bounding Boxes aus Nova bestimmt Claude, welcher Name zu welchem Gesicht gehört. Dieses räumliche Reasoning ist notwendig, da Jahrbuchlayouts variieren – Namen können über oder unter Fotos stehen, Seiten mischen Porträtraster mit Gruppenfotos. Claude adaptive thinking bewältigt diese Variabilität ohne zusätzliches Prompt Engineering pro Layout-Typ.
Beim Test mit 336 gescannten Jahrbuchseiten entstanden 3.122 Name-zu-Gesicht-Zuordnungen, von denen 93 Prozent mit einem Confidence-Score von 0,95 oder höher bewertet wurden. Die Kostenoptimierung funktioniert durch Constraint auf Nova: Statt vollständiger OCR des Textinhalts (etwa 4.500 Token pro Seite) extrahiert das Modell nur Namen in der Nähe von Fotos, was die Token-Ausgabe auf circa 1.000 Token pro Seite senkt. Insgesamt kostet der zweistufige Ansatz pro Seite etwa zwei Drittel weniger als ein Single-Model-Szenario, das die gesamte Aufgabe an ein einziges Vision-Language-Modell sendet.
Amazon hat außerdem die Bildbillierung von Nova 2 Lite neu gestaltet: Ein fixes Preis-pro-Bild-Modell schafft Kostenvorhersagbarkeit bei der Verarbeitung hunderttausender Seiten – ein entscheidender Punkt für Enterprise-Anwendungen mit hohem Skalierungsvolumen.
Quelle: aws.amazon.com · Erschienen 29. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.2.