宫颈癌风险因素数据集
知识点概述
这是一个二分类任务的数据集,目标是根据女性的人口统计学数据、生活习惯和病史等风险因素,预测其是否会患宫颈癌。该数据集在本书中被广泛用于演示各种分类模型的解释方法。
教材原文
宫颈癌数据集包含预测女性是否会患宫颈癌的指标和危险因素。这些特征包括人口统计学数据 (如年龄)、生活方式和病史。数据可从 UCI 机器学习库 下载,并由 Fernandes、Cardoso 和 Fernandes (2017) 整理 [15]。 … 活检结果作为判断是否患癌症的最终结果。对于本书中的例子,活检结果被用作目标。
详细解释
- 任务类型: 分类 (Classification),一个二分类问题。
- 预测目标:
Biopsy- 活检结果,“Healthy”(健康)或 “Cancer”(癌症)。 - 主要特征:
- 人口统计学:
Age(年龄)。 - 生活习惯:
Number of sexual partners(性伴侣数量)。First sexual intercourse(首次性行为年龄)。Smokes(是否吸烟) /Smokes (years)(烟龄)。
- 病史:
Hormonal Contraceptives(是否服用激素避孕药) /Hormonal Contraceptives (years)(服用年限)。IUD(是否有宫内节育器) /IUD (years)(使用年限)。STDs(是否患有性传播疾病) /STDs: Number of diagnosis(性病诊断次数)。
- 人口统计学:
- 数据特点:
- 不平衡数据 (Imbalanced Data): 患癌症的样本远少于健康的样本,这是许多医疗数据集的共同特点。
- 缺失值 (Missing Values): 数据中包含缺失值,在建模前需要进行处理(如用众数填充)。
- 敏感信息: 包含非常私人的问题,可能存在数据偏差。
学习要点
- 学习处理不平衡分类问题的方法。
- 了解在真实世界数据集中处理缺失值的必要性。
- 该案例是理解特征如何影响模型对个体预测(如一个病人的患癌风险)的绝佳示例。
实践应用
本书在多个章节中使用了该数据集来具体展示:
- 可解释模型: 如何使用逻辑回归(16-理论方法-逻辑回归)来预测患癌风险并解释各个风险因素的影响。
- 模型无关方法: 如何使用SHAP(38-理论方法-SHAP)等方法来解释一个训练好的黑盒模型(如随机森林)对于单个病人的预测结果。
- 有影响力的实例: 如何通过识别最有影响力的训练样本(43-理论方法-有影响力的实例)来调试模型和发现数据问题。
关联知识点
- 后续知识: 16-理论方法-逻辑回归, 38-理论方法-SHAP, 43-理论方法-有影响力的实例