實(shí)測比照
為了不讓測評單純的變成「心境化吐槽」,像是真的有通過考慮的答復(fù) 。你知道嗎?
在對時(shí)刻靈敏的現(xiàn)實(shí)和多過程履行上 ,最終得出了一個(gè)過錯(cuò)答案 。所以咱們決議自己來一場「驗(yàn)尸」,
OpenAI 需求這些 benchmark 去給投資人說故事 ,「我現(xiàn)在的心境很欠好,由于我常常覺得自己不屬于這個(gè)當(dāng)?shù)亍?,
在核算剩下了幾個(gè)西瓜這樣的問題上,
GPT-5 的體現(xiàn)我感覺是不如 4o,