知识点:随机优化问题
知识点概述
随机优化(Stochastic Optimization, SO)处理目标函数或约束中包含随机变量的问题。其典型形式是最小化一个期望值函数,这在机器学习和数据科学中尤其常见,因为训练数据通常被看作是来自某个未知概率分布的样本。
详细解释
- 模型:
- 期望最小化: ,其中 是一个随机变量。
- 有限和/经验风险最小化: 在机器学习中,真实分布未知,我们用训练样本的经验分布来近似,问题变为 。当样本量 巨大时,计算真实梯度的成本很高,因此仍需使用随机方法。
- 挑战:
- 期望值通常无法精确计算。
- 即使是有限和形式,当 很大时,每一步迭代的计算量(如整个数据集上的梯度)也无法承受。
- 求解算法:
- 随机梯度下降 (SGD): 在每一步迭代中,随机采样一个(或一小批)数据点,计算该样本上的梯度作为真实梯度的无偏估计,并据此更新参数。。
- 方差缩减技术: SGD的梯度估计有较大方差,导致收敛慢且不稳定。SVRG、SAGA等方差缩减算法通过结合全梯度信息来修正随机梯度,实现了更快的收敛速度。
学习要点
- 掌握随机优化的期望最小化和有限和最小化两种典型形式。
- 理解随机优化的核心挑战是无法精确、高效地计算梯度。
- 掌握随机梯度下降(SGD)的基本思想:用随机梯度近似真实梯度。
实践应用
- 深度学习训练: 训练神经网络的标准方法就是使用SGD及其各种变体(如Adam, RMSProp)。
- 大规模数据分析: 当数据集大到无法一次性载入内存时,基于SGD的在线学习算法是唯一可行的选择。
关联知识点
- 前置知识: 8-核心概念-随机和确定性优化
- 后续知识: 73-理论方法-随机梯度下降算法, 74-理论方法-方差减小技术
- 相关知识: 5-应用案例-深度学习