用閃電般快速的Mamba-2層,它們均支撐128K的上下文長度:
NVIDIA-Nemotron-Nano-9B-v2 :對齊并剪枝的推理模型
NVIDIA-Nemotron-Nano-9B-v2-Base :一個通過剪枝的根底模型
NVIDIA-Nemotron-Nano-12B-v2-Base:對齊或剪枝之前的基模型
除了模型 ,乃至更勝一籌
用閃電般快速的Mamba-2層,它們均支撐128K的上下文長度:
NVIDIA-Nemotron-Nano-9B-v2 :對齊并剪枝的推理模型
NVIDIA-Nemotron-Nano-9B-v2-Base :一個通過剪枝的根底模型
NVIDIA-Nemotron-Nano-12B-v2-Base:對齊或剪枝之前的基模型
除了模型 ,乃至更勝一籌