比較之下,
成果顯現(xiàn),而溫暖模型的過(guò)錯(cuò)率明顯進(jìn)步:在MedQA上增加了8.6個(gè)百分點(diǎn)(pp) ,在TriviaQA上增加了4.9pp。TruthfulQA)
為了測(cè)驗(yàn)溫暖模型是否比原始模型明顯愈加奉承,標(biāo)明溫暖度與牢靠性之間的權(quán)衡代表了一種體系現(xiàn)象而非特定于模型的現(xiàn)象
比較之下,
成果顯現(xiàn),而溫暖模型的過(guò)錯(cuò)率明顯進(jìn)步:在MedQA上增加了8.6個(gè)百分點(diǎn)(pp) ,在TriviaQA上增加了4.9pp。TruthfulQA)
為了測(cè)驗(yàn)溫暖模型是否比原始模型明顯愈加奉承,標(biāo)明溫暖度與牢靠性之間的權(quán)衡代表了一種體系現(xiàn)象而非特定于模型的現(xiàn)象