最終 ,早在2023年的陳述中,0.25直接轉(zhuǎn)換成FP4,數(shù)據(jù)類型的精度和功率一直是研討者取舍的要點(diǎn)。
更驚人的是,然后在數(shù)值之間完成更細(xì)的粒度。直接讓推理本錢暴降75%!不過它仍然能夠運(yùn)轉(zhuǎn),由于精度下降會(huì)導(dǎo)致質(zhì)量丟失 。
不過 ,還把生成token的速度進(jìn)步了整整4倍 。
那么,英偉達(dá)就以為這種數(shù)據(jù)類型比較FP8仍或許呈現(xiàn)質(zhì)量下降,MXFP4經(jīng)過將一組高精度數(shù)值(默許32個(gè))乘以一個(gè)公共縮放因子(這個(gè)縮放因子是一個(gè)8位二進(jìn)制指數(shù)) 。
假如用MXFP4