4.跨詞匯習慣
表|跨模型常識搬遷作用明顯
上表展現了 Memory Decoder 在不同 tokenizer 和模型架構下的泛化才能。還能充分利用擴展后的常識拜訪優勢。
詳細如下:
1.WikiText-103 中的言語建模
表|GPT2 模型在 WikiText-103 數據集上的域習慣辦法的困惑度比照
上表展現了 Memory Decoder 在一切 GPT2 模型尺度上的有用性
4.跨詞匯習慣
表|跨模型常識搬遷作用明顯
上表展現了 Memory Decoder 在不同 tokenizer 和模型架構下的泛化才能。還能充分利用擴展后的常識拜訪優勢。
詳細如下:
1.WikiText-103 中的言語建模
表|GPT2 模型在 WikiText-103 數據集上的域習慣辦法的困惑度比照
上表展現了 Memory Decoder 在一切 GPT2 模型尺度上的有用性