詳細(xì)如下 :
1.WikiText-103 中的言語建模
表|GPT2 模型在 WikiText-103 數(shù)據(jù)集上的域習(xí)慣辦法的困惑度比照
上表展現(xiàn)了 Memory Decoder 在一切 GPT2 模型尺度上的有用性。
這些成果驗證了這一架構(gòu)的中心優(yōu)勢 :在堅持原始模型參數(shù)完好的一起 ,
例如,Memory Decoder 與根底言語模型并行處理輸入數(shù)據(jù) ,一起堅持了推理才能,然后消除數(shù)據(jù)存儲保護(hù)和 kNN 查找?guī)淼暮怂汩_支。相似的改善也延伸至 Llama3.1 和 Llama3.2 ,但在法令文本范疇仍有改善空間。Memory Decoder 可以有用地將各種 Qwen 和 Llama 模型習(xí)慣于生物醫(yī)學(xué)、
4.跨詞匯習(xí)慣
表|跨模型常識搬遷作用明顯
上表展現(xiàn)了 Memory Decoder 在不同 tokenizer 和模型架構(gòu)下的泛化才能。
關(guān)于 Llama3-8B,Memory Decoder 也并非完美,均能堅持或提高功用