监督学习
知识点概述
监督学习是机器学习的一个主要分支,它涵盖了所有我们已知结果的预测问题。在监督学习中,我们使用一个带有标签的数据集来训练模型,然后使用该模型来预测新数据的标签或结果。
教材原文
本书关注于监督机器学习,它涵盖了所有的预测问题,其中我们会有一个数据集,我们已经知道感兴趣的结果(如过去的房价),并希望学习预测新数据的结果。有监督的学习不包括例如聚类任务(相当于无监督学习),在这些任务中我们没有感兴趣的特定结果,但希望找到数据点的聚类。此外,诸如强化学习之类的也被排除,在这种情况下,智能体(Agent)基于环境(Environment)做出动作(Action)来学习优化某种奖励(Reward)(例如玩俄罗斯方块的计算机)。监督学习的目标是学习一个预测模型,将数据的特征(如房屋大小、位置、楼层类型等)映射到输出(如房屋价格)。如果输出的是类别,则任务称为分类;如果输出是数值,则任务称为回归。
详细解释
- 核心原理: 监督学习的核心思想是“从示例中学习”。提供给算法的训练数据既包含输入特征,也包含对应的正确输出(标签)。算法的目标是学习一个从输入到输出的映射函数,当给定新的、未见过的数据时,该函数可以准确地预测输出。
- 关键组成:
- 特征 (Features): 用于进行预测的输入变量。
- 目标 (Target): 我们希望预测的结果,也称为标签。
- 训练数据 (Training Data): 包含特征和对应目标的已知数据集。
- 预测模型 (Predictive Model): 从训练数据中学习到的,能够将特征映射到目标的函数。
- 主要任务:
- 分类 (Classification): 当预测的目标是离散的类别时,例如判断一封邮件是否为垃圾邮件。
- 回归 (Regression): 当预测的目标是连续的数值时,例如预测房屋的价格。
学习要点
- 理解“监督”的含义:训练数据中包含“正确答案”(标签)。
- 能够区分监督学习、无监督学习和强化学习。
- 掌握分类和回归是监督学习的两种主要任务类型。
- 知道监督学习的目标是学习一个能够泛化到新数据的预测模型。
实践应用
- 图像分类: 识别图片中的物体是猫还是狗。
- 房价预测: 根据房屋的特征(面积、位置、房龄等)预测其售价。
- 情感分析: 判断一段文本(如电影评论)所表达的情感是积极的还是消极的。
- 疾病预测: 根据病人的临床指标预测其患某种疾病的风险。
关联知识点
- 前置知识: 1-核心概念-机器学习
- 后续知识: 14-理论方法-线性回归, 16-理论方法-逻辑回归, 20-理论方法-决策树
- 相关知识: 无监督学习, 强化学习