Zum Inhalt springen

Sumi: Uniform-Diffusion-Sprachmodell mit 7 Milliarden Parametern aus dem Stand trainiert

Auf den Punkt: Sumi ist das erste von Grund auf trainierte, frei verfügbare Uniform-Diffusion-Sprachmodell im 7-Milliarden-Parameter-Maßstab und adressiert eine Forschungslücke zwischen etablierten autoregressiven und maskierten Diffusionsansätzen.

Forscher haben Sumi, ein vollständig offenes Sprachmodell auf Basis von Uniform Diffusion, mit 7 Milliarden Parametern von Grund auf auf 1,5 Billionen Token trainiert. Das Modell bietet damit einen Referenzbaustein für die Forschung an einer bislang unterexplorierten Alternative zu autoregressiven und maskierten Diffusionsmodellen.

Diffusionsmodelle haben sich als vielversprechende Alternative zu autoregressiven Architekturen etabliert. Uniform Diffusion Language Models (UDLMs) ermöglichen es, dass jedes Token bei jedem Generierungsschritt aktualisiert werden kann – theoretisch ermöglicht dies flexiblere Generierungsstrategien. Bisher ist jedoch kein UDLM von Grund auf bei größerem Parametermaßstab und entsprechendem Trainingsbudget vortrainiert worden. Für autoregressive Modelle und maskierte Diffusionsmodelle existieren bereits skalierbare Referenzimplementierungen, die die Forschung antreiben; für Uniform Diffusion fehlte dieser Ankerpunkt.

Sumi („Tinte” im Japanischen) schließt diese Lücke. Das Modell mit 7 Milliarden Parametern wurde auf 1,5 Billionen Token öffentlich verfügbarer Korpora trainiert. Beim Vergleich mit autoregressiven Modellen ähnlicher Trainingsbudgets erreicht Sumi auf Wissens-, Reasoning- und Code-Benchmarks vergleichbare Leistung, fällt jedoch bei Common-Sense-Aufgaben ab – was die akademie-lastige Zusammensetzung der Trainingsdaten erklärt.

Die Entwickler haben Modellgewichte, Checkpoints und das vollständige Trainingsrezept sowie die Spezifikation der Datenmischung als Open Source freigegeben. Dies soll der Community ermöglichen, Uniform Diffusion im Maßstab zu untersuchen und Forschung an den bisher wenig verstandenen Aspekten dieser Modellklasse voranzutreiben.


Quelle: arxiv.org · Erschienen 16. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on: