針對3D環境下對立練習核算開支巨大的應戰 ,該結構引進了依據不確定性的獎賞塑形機制 ,引進不確定性感知機制以驅動信息性探究 。場景 下的狀況搬運 契合馬爾可夫性質。使模型能夠在動態環境中繼續調查 、減輕了探究和運用分配的應戰,現有防護辦法多依靠進犯先驗,在多步條件下反傳梯度需求構建十分長的梯度鏈條,智能體不能直接拜訪狀況 ,
對立補丁 的核算一般需求內部最大化迭代 ,因而大大進步了練習功率,進一步證明了REIN-EAD在雜亂使命和實際場景的有用性(表4 ,履行這種離線近似最大化答應REIN-EAD模型學習緊湊而賦有表現力的對立特征,還或許導致防護對特定進犯戰略過擬合