Variable-Width Transformers: Ungleichmäßige Kapazitätsverteilung über Layern17. June 202617. June 2026AI ModelsUnterschiedliche Layer erfüllen unterschiedliche Rollen und könnten daher eine ungleichmäßige Verteilung von Parametern und Rechenressourcen ermöglichen als alternative zu konstanter Architektur-Breite. Share on: