知识点：牛顿法

知识点概述

牛顿法是一种经典的二阶优化算法。它在每一步迭代中用一个二次函数来近似目标函数，并直接跳到该二次模型的最小值点。当初始点接近最优解时，牛顿法具有极快的Q-二次收敛速度。

核心思想: 在当前点 $x_{k}$ 附近，用二阶泰勒展开来近似目标函数 $f (x)$ ： $f (x) \approx f (x_{k}) + \nabla f (x_{k})^{T} (x - x_{k}) + \frac{1}{2} (x - x_{k})^{T} \nabla^{2} f (x_{k}) (x - x_{k})$ 然后，通过最小化这个二次模型来确定下一步的更新方向（牛顿方向），即令其梯度为零： $\nabla f (x_{k}) + \nabla^{2} f (x_{k}) (x - x_{k}) = 0 ⟹ x = x_{k} - [\nabla^{2} f (x_{k})]^{- 1} \nabla f (x_{k})$
算法:
1. 选择初始点 $x_{0}$ 。
2. 迭代更新: $x_{k + 1} = x_{k} - [\nabla^{2} f (x_{k})]^{- 1} \nabla f (x_{k})$ 。这等价于求解线性方程组 $\nabla^{2} f (x_{k}) d_{k} = - \nabla f (x_{k})$ 来获得牛顿方向 $d_{k}$ ，然后更新 $x_{k + 1} = x_{k} + d_{k}$ 。
性质:
- 优点: 在最优解附近具有Q-二次收敛速度，非常快。
- 缺点:
  1. 计算成本高: 需要计算、存储和求逆海瑟矩阵，对于高维问题（如深度学习）几乎不可行。
  2. 非全局收敛: 只有当初始点足够接近最优解时才保证收敛。如果海瑟矩阵非正定，牛顿方向甚至可能不是下降方向。
修正牛顿法: 为了保证全局收敛，需要对牛顿法进行修正，例如当海瑟矩阵非正定时，将其修正为一个正定矩阵（如 $\nabla^{2} f (x_{k}) + δ I$ ），并结合线搜索来保证函数值下降。