Die Vorzeichen einzelner Dimensionen in Transformern tragen semantische Information und ermöglichen Merkmalserkennung ohne Training oder Rotation, was einen neuen Weg zu mechanistischer Interpretierbarkeit öffnet.
Unterschiedliche Layer erfüllen unterschiedliche Rollen und könnten daher eine ungleichmäßige Verteilung von Parametern und Rechenressourcen ermöglichen als alternative zu konstanter Architektur-Breite.