核心术语

知识点概述

本知识点梳理了机器学习领域中常用的一系列核心术语,为后续学习建立统一的语言基础。

教材原文

为避免歧义引起混淆,本书中使用的术语定义如下: 算法 (Algorithm) 是机器为达到特定目标而遵循的一组规则… 机器学习 (Machine Learning) 是一套方法, 能够允许计算机从数据中学习… **学习器(Learner)或机器学习算法(Machine Learning Algorithm)**是用来从数据中学习机器学习模型的程序… 机器学习模型 (Machine Learning Model) 是将输入映射到预测的学习程序… 黑盒模型 (Black Box Model) 是一个不揭示其内部机制的系统… **可解释的机器学习(Interpretable Machine Learning)**是指使机器学习系统的行为和预测对人类可理解的方法和模型。 **数据集(Dataset)**是一个表格,其中包含机器要从中学习的数据… 实例 (Instance) 表现为数据集中的一行… **特征(Features)**是用于对输入进行预测或分类的。 目标 (Target) 是机器要去学会预测的信息。 机器学习任务 (Machine Learning Task) 是一个具有特征和目标的数据集的组合。 预测 (Prediction) 是机器学习模型根据给定的特征“猜测”目标值应该是什么。

详细解释

  • 算法 (Algorithm): 学习器或机器学习算法,是用于从数据中学习模型的程序。例如,CART是一种用于学习决策树的算法。
  • 模型 (Model): 机器学习算法在训练数据上学习到的具体程序,它将新的数据实例作为输入并输出预测。例如,一个训练好的线性回归模型包含一组特定的权重。
  • 黑盒 (Black Box) vs. 白盒 (White Box):
    • 黑盒模型: 指那些内部机制难以理解的模型,如深度神经网络。我们能看到输入和输出,但中间过程不透明。
    • 白盒模型: 指那些结构简单、易于理解的模型,如线性回归和决策树。本书称之为“可解释模型”。
  • 数据相关术语:
    • 数据集 (Dataset): 训练模型所用的数据集合,通常是表格形式。
    • 实例 (Instance): 数据集中的一行,也称样本或数据点。
    • 特征 (Feature): 数据集中的一列,是用于预测的输入变量。
    • 目标 (Target): 数据集中我们希望模型学会预测的列。
  • 任务与结果:
    • 机器学习任务 (Task): 特征和目标的组合,定义了要解决的问题,如分类或回归。
    • 预测 (Prediction): 模型对新实例的目标值的估计。

学习要点

  • 明确区分算法(学习过程)和模型(学习结果)。
  • 理解黑盒模型可解释模型的差异,这是本书的核心议题。
  • 掌握数据集中实例特征目标的含义。
  • 知道一个机器学习任务是由数据和预测目标共同定义的。

实践应用

在任何一个机器学习项目中,你都会遇到并使用这些术语:

  • 你会选择一个学习器(算法),如随机森林算法。
  • 在你的数据集上训练它,该数据集由多个实例组成,每个实例都有特征和一个目标
  • 训练的结果是一个模型(例如,一个训练好的随机森林)。
  • 你使用这个模型对没有见过的新实例进行预测
  • 如果你的模型是一个黑盒,你将需要使用可解释的机器学习方法来理解它的行为。

关联知识点