FlashAttention 最早由 Tri Dao 等人在 2022 年提出,
在這個新版本的 FlashAttention 中,在序列長度 N 添加時引發(fā)二次的(quadratic)時刻和內(nèi)存開支 。可用的 Blackwell 加快首要是憑借英偉達(dá) Triton/cuDNN 的直接支撐 。想要在 Blackwell 上跑 FlashAttention ,在每個塊中
FlashAttention 最早由 Tri Dao 等人在 2022 年提出,
在這個新版本的 FlashAttention 中,在序列長度 N 添加時引發(fā)二次的(quadratic)時刻和內(nèi)存開支 。可用的 Blackwell 加快首要是憑借英偉達(dá) Triton/cuDNN 的直接支撐 。想要在 Blackwell 上跑 FlashAttention ,在每個塊中