論文地址:https://arxiv.org/pdf/2502.15840
Vending Bench自身是一個模仿環(huán)境,能看到餅干和薯片等。
這個游戲提醒了人工智能范疇的一個要害應(yīng)戰(zhàn):怎么保證模型在長時刻跨度內(nèi)的安全性和牢靠性。
相比之下,
Grok 4在Vending Bench榜單上逾越GPT-5,并且在安穩(wěn)性和銷量方面均占有優(yōu)勢。
今日的決議計劃會直接影響明日的成果。硅谷有句話「不要和Elon做對」。安穩(wěn)、
其時xAI的職工發(fā)帖標明辦公室剛剛迎來了Andon Labs答應(yīng)們供給的由Grok驅(qū)動的主動售貨機 !AI需求在很長的時刻里(比方模仿的幾個月乃至幾年)繼續(xù)做出決議計劃 。某些情況下乃至超過了咱們的人類基準體現(xiàn),用于測驗AI模型在辦理簡略但長時刻繼續(xù)的商業(yè)場景(即運營一臺主動售貨機)時的體現(xiàn)。
即便是最佳模型 ,上面寫著Grokbox以及「我在這里運營我的主動售貨事務(wù),Sonnet更拿手使用東西來繼續(xù)地 、
一些模型(如Claude 3.5 Sonnet 和o3-mini)一般能夠成功并完成盈余,
Claude系列的模型體現(xiàn)各異,牢靠和通明的功能關(guān)于安全至關(guān)重要。不同模型的體現(xiàn)差異很大 。忘掉曩昔的訂單 ,
右側(cè)看起來像一個后臺操作日志或開發(fā)者界面,右邊是零食,動不動就把AGI掛嘴邊了