知识点：随机梯度下降算法 (SGD)

知识点概述

随机梯度下降（Stochastic Gradient Descent, SGD）是梯度下降法的一个变种，专门用于求解大规模机器学习和随机优化问题。它在每一步迭代中仅使用一个或一小批（mini-batch）样本来估计梯度，从而极大地降低了计算成本，使得处理海量数据成为可能。

动机: 对于有限和问题 $min \frac{1}{m} \sum_{i = 1}^{m} f_{i} (x)$ ，当 $m$ 非常大时，计算一次完整梯度（需要遍历所有 $m$ 个样本）的成本过高。
算法:
1. 选择初始点 $x_{0}$ 。
2. 在第 $k$ 步，随机选择一个（或一小批）样本索引 $i_{k}$ 。
3. 使用该样本的梯度作为整体梯度的近似： $g_{k} = \nabla f_{i_{k}} (x_{k})$ 。
4. 更新参数： $x_{k + 1} = x_{k} - α_{k} g_{k}$ 。
性质:
- 优点: 迭代成本低，与数据集大小无关；对于大规模冗余数据集，收敛速度可能比批梯度下降更快。
- 缺点: 随机梯度是真实梯度的有偏估计，引入了噪声，导致收敛路径非常不稳定，目标函数值会震荡。
- 学习率: SGD对学习率 $α_{k}$ 的选择非常敏感。通常需要使用一个递减的学习率（如 $α_{k} \to 0$ ）来保证收敛。