MiniMax Sparse Attention: Effiziente Long-Context-Verarbeitung für Milliarden-Parameter-Modelle12. June 202612. June 2026AI Models, Claude CodeMSA reduziert die Aufmerksamkeitsberechnung für Million-Token-Kontexte um das 28,4-Fache durch blockweise Sparse-Selektion und erreichbare praktische Speedups durch Co-Design von Algorithmus und GPU-Kernel. Share on: