P-EAGLE: Parallele Spekulation für schnellere LLM-Inferenz auf AWS SageMaker16. June 202616. June 2026AI Models, Claude CodeAWS hat mit P-EAGLE eine parallelisierte Variante von Speculative Decoding entwickelt, die Draft-Tokens in einem Forward-Pass statt sequenziell erzeugt und damit Inferenzdurchsatz auf SageMaker AI um bis zu 1,69x erhöht. Share on: