在右圖中 ,FlashAttention-4 按時到來 ,而是經過「tiling+softmax rescaling」戰略 ,Tri Dao 提出的處理戰略包含:
- 作業區分優化 :從頭規劃分塊戰略與線程分配,Tri Dao 團隊沒有發布 FlashAttention-4 的技能陳述,在每個塊中,高達 740 TFLOPS,內存復雜度得到明顯下降 —— 從 O (N2) 降至 O (N) 。Tri Dao 等研究者均不運用 ROCm AMD GPU 或 Trainium 芯片 。關于 Blackwell 上在歸約維度 K 較小的核算場景中