广义线性模型 (GLM)

知识点概述

广义线性模型（Generalized Linear Models, GLM）是经典线性模型的扩展，它使得线性模型能够处理非高斯分布的目标变量，如计数（count）或二元分类（binary）结果。GLM通过一个“连接函数”（Link Function）来连接特征的线性组合与目标变量的期望值。

教材原文

线性回归模型假定给定输入特征的结果遵循高斯分布。这一假设排除了许多情况…线性回归模型可以扩展为对所有这些类型的结果建模，这个扩展称为广义线性模型，简称GLM。 … 任何GLM的核心概念都是：保留特征的加权和，但允许非高斯结果分布，并通过可能的非线性函数连接该分布的期望均值与加权和。

详细解释

动机: 经典线性模型有两个主要限制：1) 假设目标变量服从高斯分布（正态分布）；2) 假设特征的线性组合直接等于目标变量的期望值。这在很多现实问题中不成立。
- 例子: 预测每天喝咖啡的杯数（一个非负的计数值），线性模型可能会预测出负数。预测一个事件发生的概率，线性模型可能预测出大于1或小于0的值。
核心原理: GLM通过引入两个核心组件来解决这些问题：
1. 概率分布 (Probability Distribution): 允许目标变量服从指数族（Exponential Family）中的任意分布，而不仅仅是高斯分布。常见的有：
  - 伯努利分布 (Bernoulli): 用于二元分类结果（0或1）。
  - 泊松分布 (Poisson): 用于计数结果（0, 1, 2, …）。
  - 伽马分布 (Gamma): 用于连续且恒为正的结果。
2. 连接函数 (Link Function): 一个可逆的函数 $g (\cdot)$ ，它将特征的线性组合与目标变量的期望均值 $E (y)$ 连接起来。
  - 模型形式: $g (E (y)) = β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p}$
与经典模型的联系:
- 线性回归是GLM的一个特例：其概率分布是高斯分布，连接函数是恒等函数（Identity Link），即 $E (y) = β_{0} + \dots$ 。
- 逻辑回归也是GLM的一个特例：其概率分布是伯努利分布，连接函数是Logit函数，即 $logit (P (y = 1)) = lo g (\frac{P ( y = 1 )}{1 - P ( y = 1 )}) = β_{0} + \dots$ 。
解释: GLM的权重解释取决于其连接函数。为了解释权重，我们需要使用连接函数的逆函数。例如，对于使用对数连接（Log Link）的泊松回归，其关系为 $E (y) = e^{(β_{0} + \sum β_{j} x_{j})}$ 。这意味着特征 $x_{j}$ 每增加一个单位，期望目标值 $E (y)$ 会乘以一个因子 $e^{β_{j}}$ ，这是一个乘法关系。

学习要点

理解GLM是对经典线性模型的扩展，主要用于处理非正态分布的目标变量。
掌握GLM的两个核心组件：概率分布（来自指数族）和连接函数。
知道线性和逻辑回归都是GLM的特例。
明白GLM的解释依赖于连接函数的逆函数，通常将加法关系转换为乘法关系。

实践应用

保险精算: 使用泊松回归或负二项回归预测客户在一年内的索赔次数（计数值）。
市场营销: 使用逻辑回归预测客户是否会点击一个广告（二元结果）。
生物学: 使用泊松回归对细胞实验中的菌落数量进行建模。

关联知识点

前置知识: 14-理论方法-线性回归, 16-理论方法-逻辑回归
后续知识: 19-理论方法-广义加性模型(GAM)

SWUFE Book Knowledge Graph

探索

18-理论方法-广义线性模型(GLM)

广义线性模型 (GLM)

知识点概述

教材原文

详细解释

学习要点

实践应用

关联知识点

关系图谱

目录

反向链接