全體上,像 Tri Dao 這樣的開發者是 CUDA 護城河的中心優勢之一 ,它運用了指數 (MUFU.EX2) 的軟件模仿來進步吞吐量 。他還在這一年的晚些時候與 Albert Gu 一起提出了 Mamba。并將其大部分核開源給其他英偉達開發者集體 。加快全體履行;
人力资源三级成绩查询FlashAttention-4震慑来袭,原生支撑Blackwell GPU,英伟达的护城河更深了?-6488avav
FlashAttention-3 的速度更是挨近 1.2 PFLOPS
。支撐更大 head size(至 256) 及多查詢注意力(MQA) 和分組查詢注意力(GQA)
,順帶一提,假設 AMD 期望 Tri Dao 和他的團隊在 ROCm 上完成算法打破。高達 740 TFLOPS
,FlashAttention-3 誕生
,運用 FP8
,避免了很多讀寫開支