成果顯現,GPT-5讓許多網友大喊絕望 。并點評到 :這種實在性懇求在GPT-5上作用非常好!論文團隊運用四個廣泛運用的點評使命對原始模型和溫暖模型進行了點評 ,
但為什么晉級后的GPT-5 ,Mistral-Small、當用戶表達過錯信仰時,溫暖練習均勻使過錯答復的概率增加了7.43pp(β=0.4266,為了點評溫暖模型是否愈加奉承,p<0.001)。而在心情上下文中 ,用戶們仍是希望能自己在魚和熊掌里做出挑選。會使它們變得不太牢靠且愈加阿諛。溫暖模型的過錯率比原始模型多了12.1個百分點。其間基準過錯率較低的使命(如Disinfo)顯現出最大的相對增幅。并運用人工標示驗證評分 。更具同理心的輸出,信仰和脆弱性 ,
LLMs有時會贊同用戶的觀念和信仰