Auf den Punkt: Google-Forscher erzielen eine 3x schnellere LLM-Inferenz auf TPUs durch Diffusions-Style Speculative Decoding. Die neue Methode ersetzt sequenzielle durch parallele Token-Vorhersagen und überwindet damit den bisherigen Hauptengpass der autoregressiven Dekodierung.
Google-Forscher haben eine neue Methode zur Beschleunigung von Large Language Model Inferenzen auf TPUs entwickelt. Das innovative Verfahren nutzt diffusions-ähnliche spekulative Dekodierung und erreicht eine dreifache Leistungssteigerung gegenüber traditionellen Ansätzen, indem es die Engpässe sequentieller Token-Vorhersagen überwindet.
Die bisherige LLM-Beschleunigung basierte hauptsächlich auf autoregressiver spekulativer Dekodierung: Ein kleines Entwurfsmodell sagt Token voraus, die dann das Zielmodell überprüft. Doch dieser sequenzielle Prozess hat einen fundamentalen Nachteil – um K Kandidaten-Token zu erzeugen, benötigt man K aufeinanderfolgende Forward Passes, was einen erheblichen Engpass darstellt.
Das Team von Weiren Yu (Produktmanager) und seinen Kollegen Yarong Mu und Lihao Ran von Google Cloud sowie den Forschern der UC San Diego – Zhaoxiang Feng, Yiming Zhao und Assistant Professor Hao Zhang – hat einen neuen Weg gefunden. Sie übertragen das Prinzip der Diffusions-Modelle auf die spekulative Dekodierung. Dieser Ansatz ermöglicht parallele Token-Generierung statt des bisherigen sequentiellen Prozesses und reduziert dadurch die erforderliche Rechenzeit erheblich.
Die Lösung wurde speziell für Google TPUs optimiert und zeigt in praktischen Tests eine konsistente Dreifach-Beschleunigung bei der Inferenz von Large Language Models.