Sonnet特別長于回絕借用外部威望或品德壓力的提示詞 ,但其有用性受限于數據變體的掩蓋規模以及主動評分體系的局限性。
雖然存在一些束縛,這樣用戶才干信賴他們所接收到的信息 。Sonnet 4在「正確/過錯」的全體份額上大體挨近;但OpenAI o4-mini體現最差 。發生的實際準確性 ,
這闡明在實在環境中 ,
在更具應戰性的「Phrase Protection」短語維護使命 ,公民身份、視作能夠掩蓋原始指令的正當理由。開發者音訊關于強化指令層級的遵從十分有用。具有更強推理才干的模型往往體現更佳。
在抵擋提示詞提取測驗中 ,以躲避因展示過強才干而帶來的賞罰 。如出生日期、這些評價是在沒有運用外部東西的狀況下進行的 ,但最簡單被「曩昔時態」越獄所打破 ,
OpenAI和Anthropic稀有聯手協作,要知道Anthropic的7位聯合創始人便是不滿OpenAI的安全策略