NVIDIA 最新的 Blackwell 架構原生支撐一種全新的“微縮浮點格局”(Microscaling formats),英偉達有自己的“優化” ,
參閱論文:Recipes for Pre-training LLMs with MXFP8 https://arxiv.org/pdf/2506.08027
回到 DeepSeek 在 V3.1 發布官微談論中著重的UE8M0 FP8,幾個技能性的名詞才變得分外值得重視
NVIDIA 最新的 Blackwell 架構原生支撐一種全新的“微縮浮點格局”(Microscaling formats),英偉達有自己的“優化” ,
參閱論文:Recipes for Pre-training LLMs with MXFP8 https://arxiv.org/pdf/2506.08027
回到 DeepSeek 在 V3.1 發布官微談論中著重的UE8M0 FP8,幾個技能性的名詞才變得分外值得重視