全體上,大模型都在用的 FlashAttention v2 來了》 。FlashAttention-3 首要采用了三種技能 :
- 經(jīng)過 warp-specialization 堆疊全體核算和數(shù)據(jù)移動;
- 交織分塊 matmul 和 softmax 運(yùn)算;
- 運(yùn)用硬件支撐 FP8 低精度的不連貫處理。并將注意力核算的輸出寫回 HBM。
項目地址:https://github.com/Dao-AILab/flash-attention
現(xiàn)在,內(nèi)存復(fù)雜度得到明顯下降 —— 從 O (N2) 降至 O (N)。可跳過了 90% 的輸出 rescaling。它運(yùn)用了指數(shù) (MUFU.EX2) 的軟件模仿來進(jìn)步吞吐量