論文中還證明了這種獎賞塑形與多步累積交互方針的等價性(細節拜見論文) 。在面臨不知道進犯與自適應進犯時相同表現出色,一起堅持了模型規范精度 ,經過REIN-EAD結構改善Swin-S模型 ,然后完成對雜亂視覺輸入的魯棒了解;
戰略模型則依據感知模型構建的內部環境了解 ,鼓舞智能體到達信息豐厚且魯棒的認知狀況,論文經過理論剖析證明RNN Style的練習辦法本質上是一種貪婪探究戰略:
這種貪婪探究戰略或許導致EAD選用部分最優戰略 ,這類進犯經過在三維物理場景中放置精心規劃的擾動物體(如對立補丁和三維對立物體)來操作深度神經網絡的猜測成果 。因而大大進步了練習功率