ZPPO integriert Lehrermodelle als Prompt-Komponenten statt als Gradienten und verbessert damit die Generalisierung beim Wissenstransfer auf kleine Modelle.
Ein neues Training-Paradigma ermöglicht es LLMs, In-Context-Wissen eigenständig in ihre Parameter zu integrieren und sich ohne menschliche Überwachung weiterzuentwickeln.