此外,僅能到達理論峰值很低的份額(約 25–40%)。
參閱鏈接
https://x.com/tri_dao/status/1960217005446791448
https://x.com/SemiAnalysis_/status/1960070677379133949
https://www.reddit.com/r/LocalLLaMA/comments/1mt9htu/flashattention_4_leak/
本文來自微信大眾號 “機器之心”(ID:almosthuman2014),運用 FP8 ,到了 2025 年 ,FlashAttention-4 的速度比英偉達 cuDNN 庫中的注意力核完成快可達 22%