自行车租赁数据集

知识点概述

这是一个经典的回归任务数据集,目标是根据天气和日期信息预测华盛顿特区共享单车的日租用量。该数据集在本书中被广泛用于演示各种可解释性方法的应用。

教材原文

该数据集包含来自华盛顿特区的自行车租赁公司 Capital-Bikeshare 的自行车租赁的每日计数,以及天气和季节信息。该数据由 Capital-Bikeshare 公开提供。Fanaee-T 和 Gama (2013)[13] 添加了天气数据和季节信息。目的是根据天气和天数来预测将租用多少辆自行车。这些数据都可以从 UCI 机器学习数据库里下载。

详细解释

  • 任务类型: 回归 (Regression)
  • 预测目标: cnt - 特定日期的自行车总租用数量(包括游客和注册用户)。
  • 主要特征:
    • 季节 (season): 春、夏、秋、冬。
    • 日期信息:
      • yr: 年份 (2011 或 2012)。
      • mnth: 月份。
      • holiday: 是否为节假日。
      • weekday: 星期几。
      • workingday: 是否为工作日。
      • days_since_2011: 自2011年1月1日以来的天数,用于捕捉长期趋势。
    • 天气信息:
      • weathersit: 天气状况(如晴天、有雾、小雨/雪等)。
      • temp: 标准化的摄氏温度。
      • hum: 标准化的相对湿度。
      • windspeed: 标准化的风速。

学习要点

  • 这是一个典型的表格数据(Tabular Data)集,结构清晰,适合初学者。
  • 数据集混合了数值型特征(如温度)和分类型特征(如季节、天气状况)。
  • 预测目标是一个计数值(count),这使得它成为一个很好的回归问题示例。
  • 通过此案例,可以学习如何应用和解释线性回归、决策树、随机森林等多种模型。

实践应用

本书在多个章节中使用了该数据集来具体展示:

关联知识点