Zum Inhalt springen

vLLM V0 zu V1: Korrektheit vor Korrigierungen im Reinforcement Learning

Auf den Punkt: ServiceNow AI löste bei der Migration von vLLM V0 zu V1 ein kritisches Train-Inference-Mismatch-Problem. Präzise Log-Wahrscheinlichkeitsberechnungen sind essentiell für konsistente Reinforcement-Learning-Trainings-Dynamiken.

ServiceNow AI migriert seine Reinforcement-Learning-Pipeline von vLLM V0 zu V1. Die zentrale Herausforderung liegt in der exakten Berechnung von Log-Wahrscheinlichkeiten, da selbst minimale Abweichungen die Trainings-Dynamiken fundamental verändern können.

Die ServiceNow-AI-Pipeline nutzt vLLM als Inferenz-Engine zur Generierung von Trainingsrolls. Die Engine erzeugt Token zusammen mit ihren Log-Wahrscheinlichkeiten, die der Trainer anschließend zur Berechnung von Policy-Ratios, KL-Divergenz, Clipping-Rate, Entropie und Reward nutzt. Jede Abweichung in der Berechnung dieser Log-Wahrscheinlichkeiten kann die Trainings-Dynamiken verändern. Dies war das Train-Inference-Mismatch-Problem, das im Rahmen der vLLM V0 zu V1 Migration gelöst werden musste. Die Migration erfordert daher größte Sorgfalt bei der Validierung aller numerischen Berechnungen, um Korrektheitsgarantien zu gewährleisten.

Share on: