一 、FlashAttention 運(yùn)用了 tiling 技能來避免在(相對(duì)較慢的)GPU HBM 上履行很大的 ?? × ?? 注意力矩陣(虛線框)。到了 2025 年,在序列長度 N 添加時(shí)引發(fā)二次的(quadratic)時(shí)刻和內(nèi)存開支
一 、FlashAttention 運(yùn)用了 tiling 技能來避免在(相對(duì)較慢的)GPU HBM 上履行很大的 ?? × ?? 注意力矩陣(虛線框)。到了 2025 年,在序列長度 N 添加時(shí)引發(fā)二次的(quadratic)時(shí)刻和內(nèi)存開支