Auf den Punkt: Gemini 3.1 Flash TTS ergänzt Google DeepMinds Sprachsynthese um Audio-Tags für granulare Kontrolle über Stimmcharakteristiken in über 70 Sprachen.

Google hat Gemini 3.1 Flash TTS veröffentlicht, ein Text-zu-Sprache-Modell mit detaillierten Audio-Tags für präzisere Kontrolle über Sprachstil und Sprachgeschwindigkeit. Das System unterstützt mehr als 70 Sprachen.

Gemini 3.1 Flash TTS ist Googles neues Audio-Modell, das es Nutzern erlaubt, KI-Stimmen durch granulare Steuerung feiner zu gestalten. Das Kernfeature sind Audio-Tags, mit denen sich Vokaltypus und Sprechgeschwindigkeit präzise modulieren lassen, ohne das zugrunde liegende Sprachmodell neu trainieren zu müssen.

Die erweiterte Sprachqualität ermöglicht ausdrucksstärkere Synthesen als bisherige Generationen. Mit Unterstützung für über 70 Sprachen richtet sich das Modell an Practitioner, die Sprachausgabe in globalen Anwendungen integrieren oder lokalisierte Voice-Content produzieren müssen.

Für Entwickler und Produktteams bedeutet dies praktisch, dass Sprachanwendungen wie Voicebot, Hörbuch-Generierung oder barrierefreie Inhalte nun differenzierter und natürlicher klingen können, ohne mehrere separate Modelle parallel zu verwalten.

Quelle: ainews-dev.lumi-systems.io · Erschienen 17. Mai 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.5.2.

Share on:

Gemini 3.1 Flash TTS: Google stellt Text-zu-Sprache-Modell mit Audio-Tags vor

Lumi AI News

Rechtliches

Themenbereiche