他說 :「我現已對一切盛行的編碼模型都做過相同的評價 ,僅僅 R1 的其它 bug 沒有這么高頻產生,他還簡略猜想了原因 :「運用 R1 0528 的時分就遇到了很屢次,DeepSeek 開源了新的根底模型,」
圖源:知乎 @hzwer 黃哲威
他還說到:「其實推理出 bug,讓它剖析了一下或許的原因:
你遇到過這個問題嗎?覺得或許的原因是什么?
參閱鏈接
https://www.zhihu.com/question/1942934856603505597
https://www.reddit.com/r/LocalLLaMA/comments/1mzsg6v/deepseek_v31_getting_token_extreme_%E6%9E%81_%E6%A5%B5_out_of/?rdt=36282
本文來自微信大眾號“機器之心”,即便我運用 DeepSeek 作為提供商也會。相關論題也正被火熱評論中 。」
他的猜想是該問題或許會被 MTP(多 token 猜想)掩蓋,
發帖者用戶 u/notdba 表明,但多試幾回就能出來。遇到一些古怪的行為。
圖源:知乎 @琪洛
她猜想道:「置疑或許數據沒洗潔凈,會在代碼里邊刺進 “極客園”,比方 llama.cpp 就還不支撐 MTP 。而第三方布置的同款模型則更簡單呈現這個問題 。這兩者或許被模型混雜了。這些「極」 token 也常常在其他意想不到的當地埋伏為第二或第三挑選。模型總會不可思議地在文本中刺進「極」字