Auf den Punkt: Googles LiteRT-LM ermöglicht blitzschnelle KI-Inferenz direkt auf Geräten. Mit Gemma 4 erreicht das System 52-76 Tokens pro Sekunde je nach Plattform und Hardware, nutzt fortgeschrittene Quantisierung und Multi-Token Prediction für maximale Performance.
Googles neues LiteRT-LM bringt fortgeschrittene KI auf Edge-Geräte und liefert optimierte Performance für die Bereitstellung von Gemma 4 über alle Plattformen hinweg. Das System nutzt fortschrittliche Quantisierungstechniken und beschleunigte Kernel, um KI-Anwendungen lokal auf Smartphones, Tablets und im Web auszuführen.
Google AI Edge hat mit LiteRT-LM (ehemals TensorFlow Lite) eine leistungsstarke Lösung für die Bereitstellung von großen Sprachmodellen auf Edge-Geräten entwickelt. Das System wird bereits in mehreren Google-Produkten eingesetzt – von Chrome und ChromeOS über die Pixel Watch bis zur viral gewordenen Google AI Edge Gallery App für Android und iOS.
Die Technologie bietet beeindruckende Geschwindigkeiten: Auf Android (Samsung S26 Ultra) erreicht LiteRT-LM mit Gemma 4 eine Decode-Geschwindigkeit von 52 Tokens pro Sekunde über den GPU-Backend, auf iOS (iPhone 17 Pro) sogar 56 Tokens pro Sekunde. Im Web liefert WebGPU auf einem MacBook Pro M4 Max Geschwindigkeiten von bis zu 76 Tokens pro Sekunde.
Das System wurde entwickelt, um die konkurrierenden Anforderungen von begrentem Speicher, eingeschränkter Rechenleistung und fragmentierter Hardware zu bewältigen. Dafür nutzt es fortgeschrittene Quantisierungsschemata, optimierte XNNPACK- und MLDrift-Kernel sowie eine intelligente Orchestrierungsschicht, die teure CPU/GPU-Datentransfers vermeidet.
Ein Schlüsselmerkmal ist die Unterstützung für Multi-Token Prediction (MTP), die eine deutliche Leistungssteigerung ermöglicht. LiteRT-LM bietet optimale Hardware-Backend-Optimierungen für CPU, GPU und NPU (aktuell auf Android) und ermöglicht es Entwicklern, einmal zu bauen und überall optimale Performance zu erzielen.