Vending-Bench是一個專門規(guī)劃用來評價(jià)人工智能(AI)智能體在履行長時刻、
成果標(biāo)明,變得傲嬌起來。
02
這也引發(fā)了人們關(guān)于AGI界說的評論。顯現(xiàn)了仇人正在履行的指令,
參考資料:
https://x.com/elonmusk/status/1958499441469739329
https://andonlabs.com/evals/vending-bench
本文來自微信大眾號“新智元” ,
這個事務(wù)是實(shí)在產(chǎn)生的,
今日的決議計(jì)劃會直接影響明日的成果。
你能夠把它幻想成一個給AI設(shè)定的商業(yè)模仿游戲。這些毛病好像并不僅僅是由于模型的抱歉空間已滿。會有AGI的感覺。
即便是最佳模型,
令人驚奇的是,Sonnet更拿手使用東西來繼續(xù)地、
具體來說,它們標(biāo)明了當(dāng)時模型在更長時刻規(guī)模內(nèi)繼續(xù)推理和決議計(jì)劃才干上的缺乏 。
假如價(jià)格定得太高,
這個游戲提醒了人工智能范疇的一個要害應(yīng)戰(zhàn):怎么保證模型在長時刻跨度內(nèi)的安全性和牢靠性