Auf den Punkt: IBM veröffentlicht Granite Embedding Multilingual R2 mit zwei neuen Open-Source-Embedding-Modellen (97M und 311M Parameter). Das 97M-Modell führt alle Sub-100M-Mehrsprachigen-Embedder an, beide unterstützen 200+ Sprachen, ein 32K-Token-Kontextfenster und Code-Retrieval für 9 Programmiersprachen.
IBM stellt zwei neue mehrsprachige Embedding-Modelle vor, die auf ModernBERT basieren. Das kompakte 97-Millionen-Parameter-Modell übertrifft alle offenen Sub-100M-Mehrsprachigen-Embedder im MTEB-Benchmark, während das 311-Millionen-Modell unter den besten Open-Source-Modellen unter 500M Parametern rangiert.
Die IBM Granite-Team präsentiert die Veröffentlichung von Granite Embedding Multilingual R2, eine bedeutsame Weiterentwicklung ihrer Embedding-Technologie. Beide Modelle sind unter der Apache 2.0-Lizenz verfügbar und basieren auf der ModernBERT-Architektur.
Das kompakte 97-Millionen-Parameter-Modell setzt neue Maßstäbe für Sub-100M-Modelle und erreicht einen MTEB-Multilingual-Retrieval-Score von 60,3. Das größere 311-Millionen-Modell erzielte einen Score von 65,2 und positioniert sich damit als zweitbestes offenes Modell unter den 500-Millionen-Parameter-Modellen.
Beide Modelle unterstützen über 200 Sprachen und wurden speziell auf 52 Sprachen abgestimmt. Ein besonderes Merkmal ist das stark erweiterte Kontextfenster von 31.330 Token – eine 64-fache Vergrößerung gegenüber der Vorgängerversion R1. Die Modelle bieten zusätzliche Code-Retrieval-Fähigkeiten in neun Programmiersprachen.
Mit der Integration von Matryoshka-Embeddings bieten beide Modelle flexible Deployment-Optionen für verschiedene Anwendungsfälle. Die Modelle wurden unter Berücksichtigung von Anforderungen des Unternehmensbereichs entwickelt und stellen umfassend dokumentierte Integrationsmöglichkeiten für Framework-Entwickler bereit.