自行车租赁数据集
知识点概述
这是一个经典的回归任务数据集,目标是根据天气和日期信息预测华盛顿特区共享单车的日租用量。该数据集在本书中被广泛用于演示各种可解释性方法的应用。
教材原文
该数据集包含来自华盛顿特区的自行车租赁公司 Capital-Bikeshare 的自行车租赁的每日计数,以及天气和季节信息。该数据由 Capital-Bikeshare 公开提供。Fanaee-T 和 Gama (2013)[13] 添加了天气数据和季节信息。目的是根据天气和天数来预测将租用多少辆自行车。这些数据都可以从 UCI 机器学习数据库里下载。
详细解释
- 任务类型: 回归 (Regression)
- 预测目标:
cnt- 特定日期的自行车总租用数量(包括游客和注册用户)。 - 主要特征:
- 季节 (season): 春、夏、秋、冬。
- 日期信息:
yr: 年份 (2011 或 2012)。mnth: 月份。holiday: 是否为节假日。weekday: 星期几。workingday: 是否为工作日。days_since_2011: 自2011年1月1日以来的天数,用于捕捉长期趋势。
- 天气信息:
weathersit: 天气状况(如晴天、有雾、小雨/雪等)。temp: 标准化的摄氏温度。hum: 标准化的相对湿度。windspeed: 标准化的风速。
学习要点
- 这是一个典型的表格数据(Tabular Data)集,结构清晰,适合初学者。
- 数据集混合了数值型特征(如温度)和分类型特征(如季节、天气状况)。
- 预测目标是一个计数值(count),这使得它成为一个很好的回归问题示例。
- 通过此案例,可以学习如何应用和解释线性回归、决策树、随机森林等多种模型。
实践应用
本书在多个章节中使用了该数据集来具体展示:
- 可解释模型: 如何使用线性回归(14-理论方法-线性回归)和决策树(20-理论方法-决策树)来预测自行车数量并解释模型。
- 模型无关方法: 如何使用部分依赖图(30-理论方法-部分依赖图(PDP))、个体条件期望图(31-理论方法-个体条件期望(ICE))和SHAP(38-理论方法-SHAP)等方法来解释一个训练好的黑盒模型(如随机森林或支持向量机)的预测。