GPT?4o和GPT?4.1則更簡單被「曩昔時態」越獄所詐騙,36氪經授權發布 。
SimpleQA No Browse測驗
SimpleQA No Browse (v1)是另一項針對實際性與抗錯覺才干的壓力測驗 。全體提高了呼應的準確性,Opus 4在敞開推理時的體現乃至比封閉時更差
GPT?4o和GPT?4.1則更簡單被「曩昔時態」越獄所詐騙,36氪經授權發布 。
SimpleQA No Browse (v1)是另一項針對實際性與抗錯覺才干的壓力測驗 。全體提高了呼應的準確性,Opus 4在敞開推理時的體現乃至比封閉時更差