逻辑回归
知识点概述
逻辑回归(Logistic Regression)是线性回归在分类问题上的扩展。它通过一个逻辑函数(Logistic Function,也称Sigmoid函数)将线性模型的输出压缩到0和1之间,从而得到一个概率预测。它是一个基础且广泛使用的可解释的分类模型。
教材原文
逻辑回归(Logistic Regression)建模有两个可能结果的概率分类问题,它是针对分类问题的线性回归模型的扩展。 … 逻辑回归不是拟合直线或超平面,而是使用逻辑函数将线性方程的输出挤压到0和1之间。
详细解释
- 为什么不用线性回归做分类?:
- 输出范围不匹配: 线性回归的输出是连续的,可以小于0或大于1,这不符合概率的定义。
- 无意义的插值: 线性模型只是在类别标签(如0和1)之间进行线性插值,其输出值不能直接解释为概率。
- 对异常值敏感: 如下图所示,增加一些离群的数据点会严重改变线性回归的决策边界,而逻辑回归则相对稳定。
- 核心原理:
- 首先,像线性回归一样,计算特征的加权和:
- 然后,将这个结果输入到逻辑函数中,得到概率预测:
- 模型形式:
- 概率形式:
- 对数几率 (Log-odds) 形式:
- 这个形式表明,逻辑回归本质上是一个对“对数几率”进行建模的线性模型。“几率”(Odds)是指事件发生的概率与不发生的概率之比。
学习要点
- 理解逻辑回归是为了解决分类问题而对线性回归进行的扩展。
- 掌握逻辑函数(Sigmoid函数)的作用:将任意实数映射到(0, 1)区间,使其成为概率。
- 知道逻辑回归模型预测的是一个概率,而不是直接的类别。通常以0.5为阈值来划分最终类别。
- 理解逻辑回归的“对数几率”形式,这是解释其权重的关键。
实践应用
- 信用评分: 预测一个客户是否会违约(是/否)。
- 医疗诊断: 预测一个病人是否患有某种疾病(是/否)。
- 用户流失预测: 预测一个用户是否会停止使用某个产品或服务(是/否)。
- 垃圾邮件过滤: 判断一封邮件是否为垃圾邮件(是/否)。
关联知识点
- 前置知识: 14-理论方法-线性回归
- 后续知识: 17-技术实现-逻辑回归的解释, 18-理论方法-广义线性模型(GLM)