360億參數(shù)的稠密模型(不是MoE),
此外,比方DeepSeek V3.1的上下文窗口是128K,比方你設(shè)置512個(gè)token的預(yù)算 ,一個(gè)包括組成指令數(shù)據(jù)(功能更強(qiáng)) ,8K或16K) ,
GitHub:
https://github.com/ByteDance-Seed/seed-oss
HuggingFace :
https://huggingface.co/collections/ByteDance-Seed/seed-oss-68a609f4201e788db05b5dcd
本文來自微信大眾號(hào)“量子位”