Zum Inhalt springen

Gemini Embedding 2: Multimodale KI für intelligente Anwendungen

Auf den Punkt: Googles neues Gemini Embedding 2 vereinigt Text, Bilder, Video, Audio und Dokumente in einem Embedding-Modell. Mit Unterstützung für über 100 Sprachen und der Verarbeitung mehrerer Medientypen gleichzeitig eröffnet es neue Möglichkeiten für multimodale KI-Anwendungen und intelligente Recherchesysteme.

Google hat die allgemeine Verfügbarkeit von Gemini Embedding 2 bekannt gegeben. Das erste Embedding-Modell der Gemini API vereinigt Text, Bilder, Video, Audio und Dokumente in einem einzigen semantischen Raum und unterstützt über 100 Sprachen.

Patrick Löber, Lucia Loher und ein Team von Google-Experten stellen die neue Möglichkeiten vor, die Gemini Embedding 2 eröffnet. Das Modell verarbeitet beeindruckend vielfältige Eingaben in einem einzigen Aufruf: bis zu 8.192 Text-Token, 6 Bilder, 120 Sekunden Video, 143 Sekunden Audio sowie 6 PDF-Seiten. Diese einheitliche Verarbeitung ermöglicht es Entwicklern, verschiedene Medientypen in einen gemeinsamen semantischen Raum zu projizieren und so reichhaltige Anwendungen zu schaffen, die proprietäre Daten “sehen” und “hören” können. Die eigentliche Stärke von Gemini Embedding 2 liegt in der Fähigkeit, verschachtelte Eingaben – wie gemischte Text- und Bild-Inhalte – in einer einzelnen Anfrage zu verarbeiten. Dies erschließt diverse Anwendungsfälle, angefangen bei agentengestützter multimodaler Retrieval-Augmented Generation (RAG) bis hin zur visuellen Suche.

Share on: