論文中還證明了這種獎(jiǎng)賞塑形與多步累積交互方針的等價(jià)性(細(xì)節(jié)拜見論文)。而不是只專心于單步。 是探究軌道 ,論文中選用了學(xué)習(xí)功率和收斂安穩(wěn)性較好的近端戰(zhàn)略優(yōu)化(PPO),生成對(duì)環(huán)境狀況的增強(qiáng)表征 ,交融感知與戰(zhàn)略模塊來(lái)模仿運(yùn)動(dòng)視覺(jué)機(jī)制
論文規(guī)劃了一種結(jié)合感知模塊與戰(zhàn)略模塊的自動(dòng)防護(hù)結(jié)構(gòu)REIN-EAD