广义线性模型 (GLM)

知识点概述

广义线性模型(Generalized Linear Models, GLM)是经典线性模型的扩展,它使得线性模型能够处理非高斯分布的目标变量,如计数(count)或二元分类(binary)结果。GLM通过一个“连接函数”(Link Function)来连接特征的线性组合与目标变量的期望值。

教材原文

线性回归模型假定给定输入特征的结果遵循高斯分布。这一假设排除了许多情况…线性回归模型可以扩展为对所有这些类型的结果建模,这个扩展称为广义线性模型,简称GLM。 … 任何GLM的核心概念都是:保留特征的加权和,但允许非高斯结果分布,并通过可能的非线性函数连接该分布的期望均值与加权和。

详细解释

  • 动机: 经典线性模型有两个主要限制:1) 假设目标变量服从高斯分布(正态分布);2) 假设特征的线性组合直接等于目标变量的期望值。这在很多现实问题中不成立。
    • 例子: 预测每天喝咖啡的杯数(一个非负的计数值),线性模型可能会预测出负数。预测一个事件发生的概率,线性模型可能预测出大于1或小于0的值。
  • 核心原理: GLM通过引入两个核心组件来解决这些问题:
    1. 概率分布 (Probability Distribution): 允许目标变量服从指数族(Exponential Family)中的任意分布,而不仅仅是高斯分布。常见的有:
      • 伯努利分布 (Bernoulli): 用于二元分类结果(0或1)。
      • 泊松分布 (Poisson): 用于计数结果(0, 1, 2, …)。
      • 伽马分布 (Gamma): 用于连续且恒为正的结果。
    2. 连接函数 (Link Function): 一个可逆的函数 ,它将特征的线性组合与目标变量的期望均值 连接起来。
      • 模型形式:
  • 与经典模型的联系:
    • 线性回归是GLM的一个特例:其概率分布是高斯分布,连接函数是恒等函数(Identity Link),即
    • 逻辑回归也是GLM的一个特例:其概率分布是伯努利分布,连接函数是Logit函数,即
  • 解释: GLM的权重解释取决于其连接函数。为了解释权重,我们需要使用连接函数的逆函数。例如,对于使用对数连接(Log Link)的泊松回归,其关系为 。这意味着特征 每增加一个单位,期望目标值 会乘以一个因子 ,这是一个乘法关系。

学习要点

  • 理解GLM是对经典线性模型的扩展,主要用于处理非正态分布的目标变量。
  • 掌握GLM的两个核心组件:概率分布(来自指数族)和连接函数。
  • 知道线性和逻辑回归都是GLM的特例。
  • 明白GLM的解释依赖于连接函数的逆函数,通常将加法关系转换为乘法关系。

实践应用

  • 保险精算: 使用泊松回归或负二项回归预测客户在一年内的索赔次数(计数值)。
  • 市场营销: 使用逻辑回归预测客户是否会点击一个广告(二元结果)。
  • 生物学: 使用泊松回归对细胞实验中的菌落数量进行建模。

关联知识点