Zum Inhalt springen

Granite Embedding Multilingual R2: Open Apache 2.0 Mehrsprachige Embeddings mit 32K Kontext

Auf den Punkt: IBM veröffentlicht Granite Embedding Multilingual R2 mit zwei neuen Open-Source-Embedding-Modellen (97M und 311M Parameter). Das 97M-Modell führt alle Sub-100M-Mehrsprachigen-Embedder an, beide unterstützen 200+ Sprachen, ein 32K-Token-Kontextfenster und Code-Retrieval für 9 Programmiersprachen.

IBM stellt zwei neue mehrsprachige Embedding-Modelle vor, die auf ModernBERT basieren. Das kompakte 97-Millionen-Parameter-Modell übertrifft alle offenen Sub-100M-Mehrsprachigen-Embedder im MTEB-Benchmark, während das 311-Millionen-Modell unter den besten Open-Source-Modellen unter 500M Parametern rangiert.

Die IBM Granite-Team präsentiert die Veröffentlichung von Granite Embedding Multilingual R2, eine bedeutsame Weiterentwicklung ihrer Embedding-Technologie. Beide Modelle sind unter der Apache 2.0-Lizenz verfügbar und basieren auf der ModernBERT-Architektur.

Das kompakte 97-Millionen-Parameter-Modell setzt neue Maßstäbe für Sub-100M-Modelle und erreicht einen MTEB-Multilingual-Retrieval-Score von 60,3. Das größere 311-Millionen-Modell erzielte einen Score von 65,2 und positioniert sich damit als zweitbestes offenes Modell unter den 500-Millionen-Parameter-Modellen.

Beide Modelle unterstützen über 200 Sprachen und wurden speziell auf 52 Sprachen abgestimmt. Ein besonderes Merkmal ist das stark erweiterte Kontextfenster von 31.330 Token – eine 64-fache Vergrößerung gegenüber der Vorgängerversion R1. Die Modelle bieten zusätzliche Code-Retrieval-Fähigkeiten in neun Programmiersprachen.

Mit der Integration von Matryoshka-Embeddings bieten beide Modelle flexible Deployment-Optionen für verschiedene Anwendungsfälle. Die Modelle wurden unter Berücksichtigung von Anforderungen des Unternehmensbereichs entwickelt und stellen umfassend dokumentierte Integrationsmöglichkeiten für Framework-Entwickler bereit.

Share on: