PPO算法详解

原文：Proximal Policy Optimization Algorithms [arXiv] [GitHub]

1. PPO算法思想

PPO算法是一种新型的Policy Gradient算法，Policy Gradient算法对步长十分敏感，但是又难以选择合适的步长，在训练过程中新旧策略的的变化差异如果过大则不利于学习。PPO提出了新的目标函数可以再多个训练步骤实现小批量的更新，解决了Policy Gradient算法中步长难以确定的问题。其实TRPO也是为了解决这个思想但是相比于TRPO算法PPO算法更容易求解。

2. Policy Gradient回顾

重新回顾一下Policy Gradient算法，Policy Gradient不通过误差反向传播，它通过观测信息选出一个行为直接进行反向传播，当然出人意料的是他并没有误差，而是利用reward奖励直接对选择行为的可能性进行增强和减弱，好的行为会被增加下一次被选中的概率，不好的行为会被减弱下次被选中的概率。

策略

\tau

$τ$ 的回报期望：

∇

(

)

[

(

)

∇

log

⁡

(

)

]

\nabla R=E_{\tau p_\theta(\tau)}[R(\tau)\nabla\log p_\theta(\tau)]

$\nabla R = E_{τ p_{θ} (τ)} [R (τ) \nabla lo g p_{θ} (τ)]$

重要性采样（Importance Sampling）:

E_{xp}

$E_{x p}$

参考资源

[1] 【强化学习】PPO(Proximal Policy Optimization)近端策略优化算法
[2] Proximal Policy Optimization

原文链接：https://blog.csdn.net/u010705932/article/details/106392699

1. PPO算法思想

2. Policy Gradient回顾

参考资源

标签云

近期文章

分类

PPO算法详解

1. PPO算法思想

2. Policy Gradient回顾

参考资源

相关文章