逻辑回归

知识点概述

逻辑回归（Logistic Regression）是线性回归在分类问题上的扩展。它通过一个逻辑函数（Logistic Function，也称Sigmoid函数）将线性模型的输出压缩到0和1之间，从而得到一个概率预测。它是一个基础且广泛使用的可解释的分类模型。

逻辑回归(Logistic Regression)建模有两个可能结果的概率分类问题，它是针对分类问题的线性回归模型的扩展。 … 逻辑回归不是拟合直线或超平面，而是使用逻辑函数将线性方程的输出挤压到0和1之间。

为什么不用线性回归做分类?:
1. 输出范围不匹配: 线性回归的输出是连续的，可以小于0或大于1，这不符合概率的定义。
2. 无意义的插值: 线性模型只是在类别标签（如0和1）之间进行线性插值，其输出值不能直接解释为概率。
3. 对异常值敏感: 如下图所示，增加一些离群的数据点会严重改变线性回归的决策边界，而逻辑回归则相对稳定。
核心原理:
1. 首先，像线性回归一样，计算特征的加权和： $z = β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p}$
2. 然后，将这个结果输入到逻辑函数中，得到概率预测： $P (y = 1) = \frac{1}{1 + e ^{- z}}$
模型形式:
- 概率形式: $P (y = 1) = \frac{1}{1 + e ^{- (β_{0} + \sum β_{j} x_{j})}}$
- 对数几率 (Log-odds) 形式: $lo g (\frac{P ( y = 1 )}{1 - P ( y = 1 )}) = β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p}$
- 这个形式表明，逻辑回归本质上是一个对“对数几率”进行建模的线性模型。“几率”（Odds）是指事件发生的概率与不发生的概率之比。