這聽著就十分像DeepSeek-R1 :DeepSeek?R1-Zero是直接依據DeepSeek?V3-Base進行純強化學習練習的初始模型。此外,
Nemotron-Pretraining-Dataset-sample:數據集的一個小規劃采樣版別供給了10個具有代表性的子集,
模型體會網址 :
https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2
參考資料:
https://research.nvidia.com/labs/adlr/NVIDIA-Nemotron-Nano-2/
本文來自微信大眾號“新智元”