之前的回憶基準測驗或許并不十分有含義;
回憶更多取決于智能體怎么辦理上下文 ,源于他們構建開源檢索增強生成 (RAG) 結構 Embedchain 的經歷,
不合在哪里?
在 4 月底的論文中 ,
那怎么正確評價智能體回憶才能呢 ?
Letta 先引薦了自家的 Letta Memory Benchmark(Letta 排行榜) 供給了同類比照(apples-to-apples),并存儲更新后的回憶。依據大模型的提取器和更新模塊并憑借具有函數調用才能的 GPT-4o-mini ,就在 LoCoMo 上取得了 74.0% 的成果 ,MemGPT 論文的帖子在 Hacker News 主頁上停留了 48 小時