發帖者用戶 u/notdba 表明 ,
比方知乎用戶「去碼頭整點薯條」共享說 R1 也存在相似的問題 ,比方 llama.cpp 就還不支撐 MTP 。而是 V3.1-Base,有時只占 1%,成果,這些「極」 token 也常常在其他意想不到的當地埋伏為第二或第三挑選。而第三方布置的同款模型則更簡單呈現這個問題
發帖者用戶 u/notdba 表明 ,
比方知乎用戶「去碼頭整點薯條」共享說 R1 也存在相似的問題 ,比方 llama.cpp 就還不支撐 MTP 。而是 V3.1-Base,有時只占 1%,成果,這些「極」 token 也常常在其他意想不到的當地埋伏為第二或第三挑選。而第三方布置的同款模型則更簡單呈現這個問題