實(shí)踐上,切回正常的推理進(jìn)程 。終究組成了“極客園”。極長的列表” 。“是 DeepSeek 模型引進(jìn)的 bug,
此外 ,參數(shù) top_k=1 ,”
也有開發(fā)者以為這是蒸餾“感染”構(gòu)成的。
這一 bug 也被廣闊網(wǎng)友戲稱為“極你太美”事情 。所謂最開端的 DeepSeek-R1(年頭版別)或許就現(xiàn)已呈現(xiàn)了“極”的問題。”
“AI 解碼師”以為這背面反映了一個(gè)更深層次的問題 :大模型并不是在真實(shí)了解言語,這無法解釋部分 Case 在“極”后邊輸出了正常的代碼,不僅僅是你說的那個(gè) token,而是在學(xué)習(xí)數(shù)據(jù)散布里的計(jì)算規(guī)矩。好像許多運(yùn)用了 RAG 方法來造難題的回答),而是練習(xí)數(shù)據(jù)和蒸餾鏈條里遺留下來的瑕疵。另一種狀況便是選到了“速”,還需要在數(shù)據(jù)組成 → 預(yù)練習(xí) → SFT → RLHF 的整個(gè)鏈條中 ,原本是 sft 數(shù)據(jù)組成乃至是結(jié)構(gòu)預(yù)練習(xí)數(shù)據(jù)的時(shí)分沒洗潔凈引進(jìn)了‘極長的數(shù)組’這種怪東西(從 R1 的行為看,”
網(wǎng)友琪洛在知乎上表明 ,也有“90000000...0000 極大的數(shù)字” 這種 ,模型就或許把它當(dāng)成一種“隱含的指令”,”
預(yù)練習(xí)都是在互聯(lián)網(wǎng)進(jìn)步行練習(xí)的 。“忍不了了,然后 RL 的時(shí)分模型直接把這個(gè)字當(dāng)某種停止符或許言語切換符號運(yùn)用了。”
其次 ,在 4 月份時(shí)就有開發(fā)者在 Github 提交了這個(gè) bug ,DeepSeek 未作出任何回應(yīng) 。這個(gè) BUG 一向存在