比方階躍星斗黃哲威表明:「我認為是自身 sft 數據組成乃至是結構預練習數據的時分沒洗潔凈引入了 “極長的數組” 這種怪東西(從 R1 的行為看,置疑是不是學習的時分吃進去了什么電子水印吃壞肚子了 。
上星期三 ,
圖源:知乎 @琪洛
她猜想道:「置疑或許數據沒洗潔凈,在修正的過程中又呈現了這個問題
比方階躍星斗黃哲威表明:「我認為是自身 sft 數據組成乃至是結構預練習數據的時分沒洗潔凈引入了 “極長的數組” 這種怪東西(從 R1 的行為看,置疑是不是學習的時分吃進去了什么電子水印吃壞肚子了 。
上星期三 ,
圖源:知乎 @琪洛
她猜想道:「置疑或許數據沒洗潔凈,在修正的過程中又呈現了這個問題