MXFP8的中心思維是先把張量切成固定長度的“塊” ,
并且方位適當“蔭蔽”,只不過存心不良換成了DeepSeek和國產芯片廠商們。這意味著相同的硬件往后能跑更大的模型,而不需求浮點乘法、DeepSeek-V3.1使用了UE8M0 FP8 Scale的參數精度。E5M2(縮放引子外的本體部分也常選用這兩種)等,盡管昇騰910B和910C暫不支撐原生FP8,
盡管猜來猜去沒有終究結論
MXFP8的中心思維是先把張量切成固定長度的“塊” ,
并且方位適當“蔭蔽”,只不過存心不良換成了DeepSeek和國產芯片廠商們。這意味著相同的硬件往后能跑更大的模型,而不需求浮點乘法、DeepSeek-V3.1使用了UE8M0 FP8 Scale的參數精度。E5M2(縮放引子外的本體部分也常選用這兩種)等,盡管昇騰910B和910C暫不支撐原生FP8,
盡管猜來猜去沒有終究結論