又一年,
在正在舉行的半導體職業會議 Hot Chips 2025 上 ,再寫回高帶寬內存(HBM),
為此,作者僅 Tri Dao 一人 。它就應該為 TogetherAI GPU 云服務上的 AMD GPU 供給優惠支撐。
論文地址 :https://arxiv.org/pdf/2307.08691
其改善的焦點是 :FlashAttention 已明顯進步功能 ,
參閱鏈接
https://x.com/tri_dao/status/1960217005446791448
https://x.com/SemiAnalysis_/status/1960070677379133949
https://www.reddit.com/r/LocalLLaMA/comments/1mt9htu/flashattention_4_leak/
本文來自微信大眾號 “機器之心”(ID :almosthuman2014)