假如MXFP4對咱們夠用,MXFP4經過將一組高精度數值(默許32個)乘以一個公共縮放因子(這個縮放因子是一個8位二進制指數)。大言語模型的占用內存僅為等規劃BF16模型的1/4,這樣的差錯顯然是無法承受的 。
為此,
例如,
(注 :OCP是Facebook于2011年建議的超大規劃數據中心協作安排,旨在下降數據中心組件本錢并進步可獲取性 。
最終,在大言語模型場景下簡直沒有質量丟失 ,但在推理階段,
后者則是模型在推理時,是由Open Compute Project (OCP) 界說的4位浮點數據類型 。MXFP4是怎樣完成這一點的?
MXFP4
MXFP4的全稱是微縮放4位浮點數(Micro-scaling Floating Point 4-bit) ,經過改動數據類型就能完成推理本錢的降本增效