Zum Inhalt springen

Gemini Embedding 2: Multimodale KI mit vereinheitlichtem Embedding-Raum

Auf den Punkt: Google startet Gemini Embedding 2, das erste multimodale Einbettungsmodell, das Text, Bilder, Videos, Audio und Dokumente in einem einheitlichen Raum verbindet. Die Lösung unterstützt über 100 Sprachen und ermöglicht agentengestützte RAG-Anwendungen sowie visuelle Suche.

Google hat Gemini Embedding 2 allgemein verfügbar gemacht – das erste Einbettungsmodell der Gemini API, das Text, Bilder, Video, Audio und Dokumente in einem einheitlichen semantischen Raum zusammenbringt. Die Lösung unterstützt über 100 Sprachen und ermöglicht innovative Anwendungen wie agentengestützte multimodale Retrieval-Augmented Generation (RAG).

Google hat die General Availability von Gemini Embedding 2 über die Gemini API und die Gemini Enterprise Agent Platform gestartet. Dies ist das erste Einbettungsmodell in der Gemini API, das mehrere Modalitäten – Text, Bilder, Videos, Audio und Dokumente – in einem gemeinsamen semantischen Raum projiziert, während es gleichzeitig mehr als 100 Sprachen unterstützt.

Die Stärke von Gemini Embedding 2 liegt in seiner Fähigkeit, mehrere Eingabetypen in einer einzigen Anfrage zu verarbeiten. Das Modell kann bis zu 8.192 Texttoken, 6 Bilder, 120 Sekunden Video, 143 Sekunden Audio und 6 PDF-Seiten gleichzeitig verarbeiten. Ein besonderes Merkmal ist die Unterstützung für verschachtelte Eingaben – etwa Mischungen aus Text und Bildern in einem Request.

Durch die Ausrichtung verschiedener Modalitäten in einem gemeinsamen semantischen Raum können Entwickler umfangreiche Anwendungen schaffen, die proprietäre Daten “sehen” und “hören” können. Dies eröffnet breite Einsatzmöglichkeiten – von agentengestützter multimodaler RAG über visuelle Suche bis hin zu anderen innovativen Anwendungsfällen, die bisher mit Einbettungsmodellen nicht möglich waren.

Share on: