知识点：强化学习

游戏: AlphaGo、AlphaStar。
机器人控制: 训练机器人完成行走、抓取等复杂任务。
推荐系统: 动态调整推荐策略以最大化用户长期参与度。

知识点概述

强化学习（RL）研究智能体（Agent）如何在一个环境中通过与环境交互来学习一个策略（Policy），以最大化累积奖励。许多强化学习算法的核心是求解一个优化问题，即寻找最优策略或最优价值函数。

核心元素: 智能体（Agent）、环境（Environment）、状态（State）、动作（Action）、奖励（Reward）。
目标: 学习一个策略 $π (a ∣ s)$ （在状态 $s$ 下采取动作 $a$ 的概率），以最大化期望的累积折扣奖励 $G_{t} = \sum_{k = 0}^{\infty} γ^{k} R_{t + k + 1}$ 。
价值函数:
- 状态价值函数 $V^{π} (s)$ : 从状态 $s$ 开始，遵循策略 $π$ 能获得的期望回报。
- 动作价值函数 $Q^{π} (s, a)$ : 在状态 $s$ 采取动作 $a$ 后，继续遵循策略 $π$ 能获得的期望回报。
优化问题:
- 价值学习 (Value-based): 目标是学习最优价值函数 $Q^{*} (s, a)$ 。这通常通过迭代求解贝尔曼最优方程来实现，例如Q-Learning算法，其更新规则可以看作是最小化时序差分（TD）误差的随机优化过程。
- 策略学习 (Policy-based): 直接将策略参数化为 $π_{θ} (a ∣ s)$ ，然后通过优化方法（如策略梯度）寻找最优参数 $θ$ 来最大化期望回报 $J (θ) = E [G_{t}]$ 。策略梯度定理给出了目标函数对参数的梯度： $\nabla_{θ} J (θ) = E [\nabla_{θ} lo g π_{θ} (a ∣ s) Q^{π} (s, a)]$ 。