监督学习

知识点概述

监督学习是机器学习的一个主要分支,它涵盖了所有我们已知结果的预测问题。在监督学习中,我们使用一个带有标签的数据集来训练模型,然后使用该模型来预测新数据的标签或结果。

教材原文

本书关注于监督机器学习,它涵盖了所有的预测问题,其中我们会有一个数据集,我们已经知道感兴趣的结果(如过去的房价),并希望学习预测新数据的结果。有监督的学习不包括例如聚类任务(相当于无监督学习),在这些任务中我们没有感兴趣的特定结果,但希望找到数据点的聚类。此外,诸如强化学习之类的也被排除,在这种情况下,智能体(Agent)基于环境(Environment)做出动作(Action)来学习优化某种奖励(Reward)(例如玩俄罗斯方块的计算机)。监督学习的目标是学习一个预测模型,将数据的特征(如房屋大小、位置、楼层类型等)映射到输出(如房屋价格)。如果输出的是类别,则任务称为分类;如果输出是数值,则任务称为回归。

详细解释

  • 核心原理: 监督学习的核心思想是“从示例中学习”。提供给算法的训练数据既包含输入特征,也包含对应的正确输出(标签)。算法的目标是学习一个从输入到输出的映射函数,当给定新的、未见过的数据时,该函数可以准确地预测输出。
  • 关键组成:
    • 特征 (Features): 用于进行预测的输入变量。
    • 目标 (Target): 我们希望预测的结果,也称为标签。
    • 训练数据 (Training Data): 包含特征和对应目标的已知数据集。
    • 预测模型 (Predictive Model): 从训练数据中学习到的,能够将特征映射到目标的函数。
  • 主要任务:
    • 分类 (Classification): 当预测的目标是离散的类别时,例如判断一封邮件是否为垃圾邮件。
    • 回归 (Regression): 当预测的目标是连续的数值时,例如预测房屋的价格。

学习要点

  • 理解“监督”的含义:训练数据中包含“正确答案”(标签)。
  • 能够区分监督学习、无监督学习和强化学习。
  • 掌握分类和回归是监督学习的两种主要任务类型。
  • 知道监督学习的目标是学习一个能够泛化到新数据的预测模型。

实践应用

  • 图像分类: 识别图片中的物体是猫还是狗。
  • 房价预测: 根据房屋的特征(面积、位置、房龄等)预测其售价。
  • 情感分析: 判断一段文本(如电影评论)所表达的情感是积极的还是消极的。
  • 疾病预测: 根据病人的临床指标预测其患某种疾病的风险。

关联知识点