更高的推理功率:答復質量上與DeepSeek-R1-0528相媲美 ,前者在V3基礎上又進行了8400億token的繼續預練習 ,36氪經授權發布。DeepSeek-V3.1選用UE8M0 FP8縮放數據格式進行練習,
在推理功率方面 ,擴展了上下文支撐。
在編碼測驗中 ,僅次于gpt-oss。
參考資料:
https://x.com/karminski3/status/1958429843558945015
https://x.com/deepseek_ai/status/1958417062008918312
本文來自微信大眾號“新智元”,
新版V3.1選用了「混合推理」,新模型共有671B參數,
基準測驗中,
具體來說