Auf den Punkt: Die Vorzeichen einzelner Dimensionen in Transformern tragen semantische Information und ermöglichen Merkmalserkennung ohne Training oder Rotation, was einen neuen Weg zu mechanistischer Interpretierbarkeit öffnet.

Forscher zeigen, dass die Standardbasis von Transformer-Hidden-States bereits eine trainingsfreie Merkmalsdarstellung bietet: Einzelne Dimensionen kodieren semantischen Inhalt durch ihr Vorzeichen (Plus/Minus) und Konfidenz durch ihre Magnitude. Dieser Mechanismus funktioniert über Sprach-, Vision- und Audio-Modelle hinweg.

Das „Bag of Dims”-Framework behandelt Hidden-State-Dimensionen als unabhängige binäre Register. Ein Merkmal ist definiert als eine Teilmenge von Dimensionen mit konsistenten Vorzeichenmustern; die Erkennung erfolgt durch Zählung von Vorzeichenübereinstimmungen ohne erlernte Rotation. Die Validierung umfasst sieben Modelle: Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B (Sprache), DINOv2, ViT-Base (Vision) und AST (Audio).

Reine Vorzeichen reichen aus, um prädiktiven Inhalt zu transportieren. Magnitude-1-Vorzeichenmuster erhalten 60–93 % der Top-5-Next-Token-Genauigkeit durch den LM-Head, und dekoder-freies Hamming-Scoring erreicht 80–90 % Top-4096-Genauigkeit. Aus einem einzelnen-Token-Cache (ein Forward-Pass pro Token, kein Kontext, keine Labels) werden 175 Kategorien mit AUC 0,97–0,99 per Vorzeichenübereinstimmung erkannt. Eine trainierte Sonde fügt nur +0,018 AUC hinzu und konvergiert zu achsenausgerichteten Gewichten.

Die erkannten Merkmale sind kausal wirksam: Sie überstehen die K/V-Attention-Projektionen, lassen sich auf FFN-Neuron-Koalitionen zurückverfolgen (Zufallsgewicht-Kontrollen reproduzieren dies nie), und das Vertauschen der Vorzeichen eines Merkmals während des Live-Forward-Pass unterdrückt sein Konzept über vier Sprachmodelle hinweg – magnituden- und konzeptspezifisch angepasst. Dimensionen bleiben unabhängig (gegenseitige Information unter 0,006 Bits).

Die Struktur ist nicht sprachmodell-spezifisch: Dieselben Vorzeichenmuster pro Dimension erscheinen in selbstüberwachter Vision (DINOv2, 9/12 ImageNet-Superklassen), überwachter Vision (ViT-Base, 11/12) und Audio (AST, 50/50 ESC-50-Kategorien). Das deutet darauf hin, dass die Struktur aus dem Transformer-Training selbst resultiert, nicht aus dem Language-Modeling-Objective. Die Merkmalsablesung funktioniert mit Standard-Basis in einem Forward-Pass, ohne Optimierung und GPU-intensive Berechnung. Das offene Problem verschiebt sich vom Finden der richtigen Rotation zum systematischen Katalogisieren, was jede Dimension kodiert.

Quelle: arxiv.org · Erschienen 16. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on:

Transformer-Dimensionen als direkte semantische Register: Training-freie Interpretierbarkeit via Vorzeichenmuster

Lumi AI News

Rechtliches

Themenbereiche