广义线性模型 (GLM)
知识点概述
广义线性模型(Generalized Linear Models, GLM)是经典线性模型的扩展,它使得线性模型能够处理非高斯分布的目标变量,如计数(count)或二元分类(binary)结果。GLM通过一个“连接函数”(Link Function)来连接特征的线性组合与目标变量的期望值。
教材原文
线性回归模型假定给定输入特征的结果遵循高斯分布。这一假设排除了许多情况…线性回归模型可以扩展为对所有这些类型的结果建模,这个扩展称为广义线性模型,简称GLM。 … 任何GLM的核心概念都是:保留特征的加权和,但允许非高斯结果分布,并通过可能的非线性函数连接该分布的期望均值与加权和。
详细解释
- 动机: 经典线性模型有两个主要限制:1) 假设目标变量服从高斯分布(正态分布);2) 假设特征的线性组合直接等于目标变量的期望值。这在很多现实问题中不成立。
- 例子: 预测每天喝咖啡的杯数(一个非负的计数值),线性模型可能会预测出负数。预测一个事件发生的概率,线性模型可能预测出大于1或小于0的值。
- 核心原理: GLM通过引入两个核心组件来解决这些问题:
- 概率分布 (Probability Distribution): 允许目标变量服从指数族(Exponential Family)中的任意分布,而不仅仅是高斯分布。常见的有:
- 伯努利分布 (Bernoulli): 用于二元分类结果(0或1)。
- 泊松分布 (Poisson): 用于计数结果(0, 1, 2, …)。
- 伽马分布 (Gamma): 用于连续且恒为正的结果。
- 连接函数 (Link Function): 一个可逆的函数 ,它将特征的线性组合与目标变量的期望均值 连接起来。
- 模型形式:
- 概率分布 (Probability Distribution): 允许目标变量服从指数族(Exponential Family)中的任意分布,而不仅仅是高斯分布。常见的有:
- 与经典模型的联系:
- 线性回归是GLM的一个特例:其概率分布是高斯分布,连接函数是恒等函数(Identity Link),即 。
- 逻辑回归也是GLM的一个特例:其概率分布是伯努利分布,连接函数是Logit函数,即 。
- 解释: GLM的权重解释取决于其连接函数。为了解释权重,我们需要使用连接函数的逆函数。例如,对于使用对数连接(Log Link)的泊松回归,其关系为 。这意味着特征 每增加一个单位,期望目标值 会乘以一个因子 ,这是一个乘法关系。
学习要点
- 理解GLM是对经典线性模型的扩展,主要用于处理非正态分布的目标变量。
- 掌握GLM的两个核心组件:概率分布(来自指数族)和连接函数。
- 知道线性和逻辑回归都是GLM的特例。
- 明白GLM的解释依赖于连接函数的逆函数,通常将加法关系转换为乘法关系。
实践应用
- 保险精算: 使用泊松回归或负二项回归预测客户在一年内的索赔次数(计数值)。
- 市场营销: 使用逻辑回归预测客户是否会点击一个广告(二元结果)。
- 生物学: 使用泊松回归对细胞实验中的菌落数量进行建模。
关联知识点
- 前置知识: 14-理论方法-线性回归, 16-理论方法-逻辑回归
- 后续知识: 19-理论方法-广义加性模型(GAM)