原文:Proximal Policy Optimization Algorithms [arXiv] [GitHub]

1. PPO算法思想

PPO算法是一种新型的Policy Gradient算法,Policy Gradient算法对步长十分敏感,但是又难以选择合适的步长,在训练过程中新旧策略的的变化差异如果过大则不利于学习。PPO提出了新的目标函数可以再多个训练步骤实现小批量的更新,解决了Policy Gradient算法中步长难以确定的问题。其实TRPO也是为了解决这个思想但是相比于TRPO算法PPO算法更容易求解。

2. Policy Gradient回顾

重新回顾一下Policy Gradient算法,Policy Gradient不通过误差反向传播,它通过观测信息选出一个行为直接进行反向传播,当然出人意料的是他并没有误差,而是利用reward奖励直接对选择行为的可能性进行增强和减弱,好的行为会被增加下一次被选中的概率,不好的行为会被减弱下次被选中的概率。

策略

τ

\tau

τ的回报期望:

R

=

E

τ

p

θ

(

τ

)

[

R

(

τ

)

log

p

θ

(

τ

)

]

\nabla R=E_{\tau p_\theta(\tau)}[R(\tau)\nabla\log p_\theta(\tau)]

R=Eτpθ(τ)[R(τ)logpθ(τ)]

重要性采样(Importance Sampling):

E

x

p

E_{xp}

Exp

参考资源

[1] 【强化学习】PPO(Proximal Policy Optimization)近端策略优化算法
[2] Proximal Policy Optimization


版权声明:本文为u010705932原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/u010705932/article/details/106392699