Kokkuvõte: Kahetasandiline juhtplokk Amazon Nova 2 Lite struktureeritud ekstraheerimiseks ja Claude Sonnet 3.5 ruumianalüüsiks vähendab dokumentide digitaliseerimiskulusid kahe kolmandiku võrra.
Amazon demonstreerib kahetasandilist protsessi skaneeritud dokumentide automaatseks digitaliseerimiseks kombineeritud KI-mudelitega: Nova 2 Lite tuvastab fotod ja nimed, Claude viib läbi ruumianalüüse. Kombinatsioon säästab ligikaudu kahe kolmandiku kulusid võrreldes ühemudelilise lähenemisega.
Amazon on AWS Bedrockil rakendanud tootmisprotsessi skaneeritud aastaraamatulehtede automatiseeritud digitaliseerimiseks. Esimeses etapis kasutatakse Amazon Nova 2 Lite, et lehel täita mitut ülesannet ühe API-kutse abil: natiivne multimodaalne fotode tuvastamine piiritlemiskastidega, nähtava teksti (nimed) ekstraheerimmine positsiooniteatega ning metaandmete nagu pealkirjade ja kategooriate kogumist. Mudel seati LOW-Reasoning režiimile, kuna testid kõigil 336 testlehel ei näidanud olulisi täpsuskaotusi, kuid see säte minimeeris märgitokenite kulusid.
Teises etapis analüüsib Claude Sonnet 3.5 ruumilist paigutust: nimetuste positsioonide ja fotode piiritlemiskastide põhjal Nova-st määrab Claude, milline nimi vastab millisele näole. See ruumiarutelu on vajalik, kuna aastaraamatute paigutused varieeruvad – nimed võivad olla fotode kohal või all, lehed ühendavad portreeridade fotosid rühmafotodega. Claude’i adaptiivne mõtlemine toimetab selle varieeruvusega ilma täiendava ajuteksti insenerluseta paigutuse tüübi kohta.
336 skaneeritud aastaraamatulehe testil tekkis 3 122 nimi-näo vastavust, millest 93 protsenti hinnati usaldusväärsuse skooriga 0,95 või kõrgemal. Kuluoptimeerimine toimib Nova piirangute kaudu: täielik tekstisisu OCR asemel (umbes 4 500 märgitokenit lehekülje kohta) ekstraheerib mudel fotode läheduses ainult nimesid, mis vähendab märgitokenite väljundit umbes 1 000 märgitokenini lehekülje kohta. Üldiselt maksab kahetasandiline lähenemine lehekülje kohta ligikaudu kahe kolmandiku võrra vähem kui ühemudeliline stsenaarium, mis saadab kogu ülesande ühekordsele nägemis-keele mudelile.
Amazon on samuti ümber kujundanud Nova 2 Lite pildiarvestuse: fikseeritud hinna-pildi-kaupa mudel loob kuluennustatavuse saadade ja tuhandete lehekülgede töötlemisel – see on kriitiline punkt kõrge mahulistele ettevõtete rakendustele.
Allikas: aws.amazon.com · Avaldatud 29. juuni 2026
Lumi AI News — KI-abil kurateeritud vastavalt EU AI Acti artiklile 50. Parafraas ja klassifikatsioon Lumi News Pipeline v1.7.2 kaudu.