Zum Inhalt springen

OpenAI präsentiert GPT-Realtime-2 und neue SOTA-Echtzeit-Sprach-APIs

Auf den Punkt: OpenAI veröffentlicht GPT-Realtime-2 mit 15,2 Prozent Leistungssteigerung. Neue Features umfassen konfigurierbare Einleitungen, parallele Werkzeugaufrufe, bessere Fehlerbehandlung, erweiterte Kontextlänge auf 128K Token und verbesserte Sprachnuancen-Kontrolle für Entwickler.

OpenAI hat drei neue Modelle mit erheblich verbesserter Sprachverarbeitung veröffentlicht. GPT-Realtime-2 zeigt eine beeindruckende Leistungssteigerung von 15,2 Prozent beim Big Bench Audio-Test und wird von deutlich verbessertem Sprachverständnis angetrieben.

Während das vor drei Monaten veröffentlichte Realtime-Modell nur eine Verbesserung von fünf Prozent bot und auf der Intelligenz von 4o basierte, markiert die heutige Realtime-2-Veröffentlichung einen signifikanten Fortschritt. OpenAI stellt drei neue Modelle bereit: eines für Spracheingabe, eines für Sprachausgabe und eines für Sprach-zu-Sprach-Konversionen.

Der Fokus liegt nicht primär auf Sprachqualität, sondern auf praktischer Anwendbarkeit. Entwickler können nun benutzerdefinierte Einleitungsphrasen konfigurieren wie „Lass mich das überprüfen” oder „Einen Moment, ich schaue das nach.” Das Modell unterstützt parallele Werkzeugaufrufe und kann seine Aktionen verbalisieren, etwa „Überprüfe deinen Kalender” oder „Ich schaue das gerade nach.”

Die Fehlerbehandlung wurde verbessert – das Modell antwortet natürlicher auf Probleme mit Sätzen wie „Damit habe ich gerade Schwierigkeiten.” Der Kontext wurde von 32.000 auf 128.000 Token erweitert, während das Modell Fachbegriffe, Eigennamen und medizinische Konzepte besser bewahrt. Entwickler können Tonfall und Sprechweise präzise steuern und zwischen fünf Stufen der Reasoning-Anstrengung wählen. Das Demo-Video zeigt auch verbesserte Unterbrechungserkennung.

Share on: