逻辑回归

知识点概述

逻辑回归(Logistic Regression)是线性回归在分类问题上的扩展。它通过一个逻辑函数(Logistic Function,也称Sigmoid函数)将线性模型的输出压缩到0和1之间,从而得到一个概率预测。它是一个基础且广泛使用的可解释的分类模型。

教材原文

逻辑回归(Logistic Regression)建模有两个可能结果的概率分类问题,它是针对分类问题的线性回归模型的扩展。 … 逻辑回归不是拟合直线或超平面,而是使用逻辑函数将线性方程的输出挤压到0和1之间。

详细解释

  • 为什么不用线性回归做分类?:
    1. 输出范围不匹配: 线性回归的输出是连续的,可以小于0或大于1,这不符合概率的定义。
    2. 无意义的插值: 线性模型只是在类别标签(如0和1)之间进行线性插值,其输出值不能直接解释为概率。
    3. 对异常值敏感: 如下图所示,增加一些离群的数据点会严重改变线性回归的决策边界,而逻辑回归则相对稳定。
  • 核心原理:
    1. 首先,像线性回归一样,计算特征的加权和:
    2. 然后,将这个结果输入到逻辑函数中,得到概率预测:
  • 模型形式:
    • 概率形式:
    • 对数几率 (Log-odds) 形式:
    • 这个形式表明,逻辑回归本质上是一个对“对数几率”进行建模的线性模型。“几率”(Odds)是指事件发生的概率与不发生的概率之比。

学习要点

  • 理解逻辑回归是为了解决分类问题而对线性回归进行的扩展。
  • 掌握逻辑函数(Sigmoid函数)的作用:将任意实数映射到(0, 1)区间,使其成为概率。
  • 知道逻辑回归模型预测的是一个概率,而不是直接的类别。通常以0.5为阈值来划分最终类别。
  • 理解逻辑回归的“对数几率”形式,这是解释其权重的关键。

实践应用

  • 信用评分: 预测一个客户是否会违约(是/否)。
  • 医疗诊断: 预测一个病人是否患有某种疾病(是/否)。
  • 用户流失预测: 预测一个用户是否会停止使用某个产品或服务(是/否)。
  • 垃圾邮件过滤: 判断一封邮件是否为垃圾邮件(是/否)。

关联知识点