宫颈癌风险因素数据集

知识点概述

这是一个二分类任务的数据集,目标是根据女性的人口统计学数据、生活习惯和病史等风险因素,预测其是否会患宫颈癌。该数据集在本书中被广泛用于演示各种分类模型的解释方法。

教材原文

宫颈癌数据集包含预测女性是否会患宫颈癌的指标和危险因素。这些特征包括人口统计学数据 (如年龄)、生活方式和病史。数据可从 UCI 机器学习库 下载,并由 Fernandes、Cardoso 和 Fernandes (2017) 整理 [15]。 … 活检结果作为判断是否患癌症的最终结果。对于本书中的例子,活检结果被用作目标。

详细解释

  • 任务类型: 分类 (Classification),一个二分类问题。
  • 预测目标: Biopsy - 活检结果,“Healthy”(健康)或 “Cancer”(癌症)。
  • 主要特征:
    • 人口统计学: Age (年龄)。
    • 生活习惯:
      • Number of sexual partners (性伴侣数量)。
      • First sexual intercourse (首次性行为年龄)。
      • Smokes (是否吸烟) / Smokes (years) (烟龄)。
    • 病史:
      • Hormonal Contraceptives (是否服用激素避孕药) / Hormonal Contraceptives (years) (服用年限)。
      • IUD (是否有宫内节育器) / IUD (years) (使用年限)。
      • STDs (是否患有性传播疾病) / STDs: Number of diagnosis (性病诊断次数)。
  • 数据特点:
    • 不平衡数据 (Imbalanced Data): 患癌症的样本远少于健康的样本,这是许多医疗数据集的共同特点。
    • 缺失值 (Missing Values): 数据中包含缺失值,在建模前需要进行处理(如用众数填充)。
    • 敏感信息: 包含非常私人的问题,可能存在数据偏差。

学习要点

  • 学习处理不平衡分类问题的方法。
  • 了解在真实世界数据集中处理缺失值的必要性。
  • 该案例是理解特征如何影响模型对个体预测(如一个病人的患癌风险)的绝佳示例。

实践应用

本书在多个章节中使用了该数据集来具体展示:

  • 可解释模型: 如何使用逻辑回归(16-理论方法-逻辑回归)来预测患癌风险并解释各个风险因素的影响。
  • 模型无关方法: 如何使用SHAP(38-理论方法-SHAP)等方法来解释一个训练好的黑盒模型(如随机森林)对于单个病人的预测结果。
  • 有影响力的实例: 如何通过识别最有影响力的训练样本(43-理论方法-有影响力的实例)来调试模型和发现数据问题。

关联知识点