iLLaDA zeigt, dass vollständig bidirektionales Diffusions-Training von Grund auf ein konkurrenzkräftiger Weg zu starken Sprachmodellen sein kann, auch ohne autoregressives Training.
Sumi ist das erste von Grund auf trainierte, frei verfügbare Uniform-Diffusion-Sprachmodell im 7-Milliarden-Parameter-Maßstab und adressiert eine Forschungslücke zwischen etablierten autoregressiven und maskierten Diffusionsansätzen.