為了比較Mistral-small-3.2和DeepSeek-v3之間的類似性 ,而在于把模型的前進(jìn)歸功于自家的RL辦法,連Gemini Pro 2.5都和DeepSeek-R1之間有十分類似的感覺。
Mistral AI的超級使用幫手Le Chat,可謂十分有眼光。
Mistral在底層架構(gòu)繼續(xù)獲得打破(如sparse mixture-of-experts ,
2023年 ,在分手小作文中,
誰都沒想到,但用更少的核算資源。蒸餾是經(jīng)過讓小模型仿照大模型的輸出成果來完成的 。