朴素贝叶斯分类器
知识点概述
朴素贝叶斯分类器是一种基于贝叶斯定理的简单概率分类模型。它的核心特点是“朴素”地假设所有特征之间是相互独立的。尽管这个假设在现实中往往不成立,但朴素贝叶斯在许多应用中仍然表现出色,尤其是在文本分类领域。
教材原文
朴素贝叶斯分类器使用条件概率的贝叶斯定理。对于每个特征,它根据特征值计算类的概率。朴素贝叶斯分类器独立地计算每个特征的类概率,这相当于特征独立性的强假设。朴素贝叶斯是一个条件概率模型,它对 的概率建模如下: 是一个缩放参数, 可确保所有类别的概率之和为 1…
详细解释
- 核心原理:
- 贝叶斯定理:
- : 后验概率,即在给定特征 的情况下,实例属于类别 的概率。这是我们想求的。
- : 似然概率,即在类别 中,观察到特征 的概率。
- : 先验概率,即类别 本身在数据集中出现的概率。
- : 证据,即特征 在数据集中出现的概率。
- “朴素”的独立性假设: 为了简化计算,朴素贝叶斯假设所有特征 之间是条件独立的。这意味着 可以被分解为每个特征的条件概率的乘积:
- 贝叶斯定理:
- 模型形式: 结合以上两点,我们可以得到朴素贝叶斯分类器的最终公式。对于一个新实例,我们会计算它属于每个类别的后验概率,并选择概率最大的那个类别作为预测结果。
- 可解释性: 由于其强大的独立性假设,朴素贝叶斯是一个可解释的模型。我们可以直接查看每个特征在不同类别下的条件概率 ,来理解该特征值对于判断类别有多大的“证据”作用。
学习要点
- 掌握贝叶斯定理是理解朴素贝叶斯分类器的基础。
- 理解“朴素”一词的含义:假设所有特征相互独立。
- 知道这个独立性假设是朴素贝叶斯分类器的最大特点,也是其主要局限。
- 了解朴素贝叶斯的可解释性来源于我们可以直接分析每个特征对类别判断的贡献。
实践应用
- 文本分类:
- 垃圾邮件过滤: 判断一封邮件是否为垃圾邮件。例如,如果“免费”、“中奖”等词语在垃圾邮件类别下的条件概率 很高,那么包含这些词的邮件就更可能被分类为垃圾邮件。
- 情感分析: 判断一段评论是积极还是消极。
- 疾病诊断: 根据病人的症状(假设症状间相互独立)来初步判断其可能患有的疾病。
关联知识点
- 前置知识: 2-核心概念-监督学习
- 后续知识: 16-理论方法-逻辑回归