Zum Inhalt springen

LLM-Inferenz auf Google TPUs um das Dreifache beschleunigt

Auf den Punkt: Google entwickelt neue Methode zur LLM-Beschleunigung auf TPUs mit diffusions-inspiriertem Ansatz – dreifache Speedup durch parallele Token-Vorhersage statt sequenziellem Bottleneck.

Google-Forscher präsentieren eine innovative Methode zur Beschleunigung von Sprachmodellen auf Tensor Processing Units. Mit einem diffusions-inspirierten Ansatz zur spekulativen Dekodierung erreichen sie eine dreifache Leistungssteigerung gegenüber herkömmlichen Verfahren.

Das Team um Weiren Yu und Yarong Mu von Google Cloud hat einen Durchbruch bei der Optimierung von Large Language Model (LLM) Inferenz erzielt. Die bisherige Industrie-Standard-Methode der autoregressiven spekulativen Dekodierung nutzt ein kompaktes Entwurfsmodell, das Token sequenziell vorhersagt und ein Zielmodell diese anschließend validiert. Dieses serielle Verfahren schafft jedoch einen kritischen Engpass: Um K Kandidaten-Token zu generieren, sind K nacheinander ausgeführte Forward-Durchläufe erforderlich.

Das neue Verfahren überwindet diese Einschränkung durch einen diffusions-ähnlichen Ansatz, der mehrere Token parallel vorhersagen kann. Dies eliminiert den seriellen Engpass und ermöglicht deutlich schnellere Inferenzzeiten auf Google TPUs. Die Forschung wurde von Experten aus Google Cloud sowie Assistenzforschern der UC San Diego durchgeführt und in Googles Developer Blog präsentiert.

Share on: