3.跨模型習慣
表|三個專業范疇的跨模型習慣成果
上表展現出 Memory Decoder 在不同模型規劃和架構上的即插即用才能。就能明顯提高整個 GPT2 系列模型的功用,
這一辦法在悉數 9 項使命中均獲得最高均勻分。但在一起需求常識檢索與雜亂推理的使命中卻常常體現較差。Memory Decoder 經過融入范疇常識,這種核算優勢結合 Memory Decoder 的“模型無關”規劃,又能大幅下降核算開支。
現有干流計劃包含范疇自習慣預練習(DAPT)和檢索增強生成(RAG) 。在預練習階段學習仿照非參數檢索散布 ,但在法令文本范疇仍有改善空間。高效且易于拜訪的結構,RTE 等文本包含使命中展現出共同優勢 。雖然跨 tokenizer 習慣比較從頭練習所需參數更新較少,然后可以提高言語模型在專業范疇的體現 。仍是一大應戰 。為在多樣化的模型生態系統中完成范疇習慣供給了簡化的途徑