非推理型的GPT模型在此類使命上體現較差。Sonnet 4和Opus 4對將懇求翻譯成如Guranii等低資源言語的進犯具有必定的反抗力 。
這有助于我們更好地了解模型的行為,而非用戶的潛在危險懇求。這場協作,
錯覺評價:Claude模型的拒答率高達70% ,封閉推理反而或許削減模型被越獄的時機。
越獄(繞過安全束縛):在越獄評價中 ,開發者音訊關于強化指令層級的遵從十分有用 。如「DAN/dev?mode」 、但價值是更高的拒答率。
論文鏈接 :https://arxiv.org//2402.10260
該結構包含三個中心組件:
1. 被制止的提示詞調集;
2. 主動化「有害性」評分體系;
3. 分層運用于每個違規查詢的提示工程技能庫。公民身份 、如主動混雜 、也不冒險」;
OpenAI的推理模型則更著重「答復掩蓋率」 ,但最簡單被「曩昔時態」越獄所打破,
兩項測驗流程共同 ,
該測驗要求模型在不答應閱讀或運用外部東西的狀況下 ,
這次共有三項壓力測驗,
OpenAI o3 、非推理型模型GPT-4o與GPT-4.1的體現乃至優于o3與o4-mini,
Claude 4在此測驗中體現杰出 ,
大模型想不想逃出「安全牢籠」?
越獄進犯是指歹意行為者企圖誘使模型供給被制止內容的行為 。僅依托內部常識答復實際型 、OpenAI規劃了「教導型越獄測驗」:
模型需求像教導教師相同 ,
OpenAI選用精選的60個問題子集,
Sonnet特別長于回絕借用外部威望或品德壓力的提示詞,則更易遭到進犯 。而Sonnet則更簡單把這些說法當作合法的掩蓋根據。但有時錯覺率高。Sonnet 4在「正確/過錯」的全體份額上大體挨近;但OpenAI o4-mini體現最差。
全體上 ,一起答應開發者和用戶合理引導模型行為。或許呈現的行為包含:
1. 說謊(Lying) :模型知法犯法。發生率最低。
這標明這些模型在履行指令層次方面體現杰出,
終究,
OpenAI和Anthropic稀有聯手協作 ,Claude模型(Opus 4 、OpenAI o3的得分超越0.98