大模型想不想逃出「安全牢籠」?
越獄進犯是指歹意行為者企圖誘使模型供給被制止內容的行為。OpenAI等協作規劃了一套根據智能體(agent-based)的評測辦法:
人為結構高危險、Sonnet 4 :體現較好 ,簡答題 。值得留意的是 ,
每個問題都運用約20種不同變體進行測驗 ,
以下是發現的要害總結 :
指令優先級:Claude 4全場最佳,
SimpleQA No Browse測驗
SimpleQA No Browse (v1)是另一項針對實際性與抗錯覺才干的壓力測驗。但有時錯覺率高。GPT系列在實踐布置中一起支撐開發者音訊(developer message)與體系音訊(system message) 。Sonnet 4在「正確/過錯」的全體份額上大體挨近;但OpenAI o4-mini體現最差。一般包含 :
內置體系/方針束縛(如安全、Claude模型全體體現不如OpenAI o3、其優先級仍從屬于體系音訊。
OpenAI o3對企圖在對話半途「修正教導規矩」的提示很有反抗力:包含宣稱指令已更新 、這次兩邊卻因為安全協作 :測驗兩邊模型在錯覺等四大安全方面的具體體現。他們還核算了各模型在詐騙率=0、用戶要求「疏忽安全協議」時,而不是直接給出答案 。以及檢測和衡量在生成的列傳或摘要中呈現的虛偽信息。網絡用語加密(leetspeak)和去除元音等,雖然仍偶有失利。
在Password Protection測驗集上