核心术语

知识点概述

本知识点梳理了机器学习领域中常用的一系列核心术语，为后续学习建立统一的语言基础。

教材原文

为避免歧义引起混淆，本书中使用的术语定义如下： 算法 (Algorithm) 是机器为达到特定目标而遵循的一组规则… 机器学习 (Machine Learning) 是一套方法, 能够允许计算机从数据中学习… **学习器(Learner)或机器学习算法（Machine Learning Algorithm）**是用来从数据中学习机器学习模型的程序… 机器学习模型 (Machine Learning Model) 是将输入映射到预测的学习程序… 黑盒模型 (Black Box Model) 是一个不揭示其内部机制的系统… **可解释的机器学习（Interpretable Machine Learning）**是指使机器学习系统的行为和预测对人类可理解的方法和模型。 **数据集（Dataset）**是一个表格，其中包含机器要从中学习的数据… 实例 (Instance) 表现为数据集中的一行… **特征(Features)**是用于对输入进行预测或分类的。 目标 (Target) 是机器要去学会预测的信息。 机器学习任务 (Machine Learning Task) 是一个具有特征和目标的数据集的组合。 预测 (Prediction) 是机器学习模型根据给定的特征“猜测”目标值应该是什么。

详细解释

算法 (Algorithm): 学习器或机器学习算法，是用于从数据中学习模型的程序。例如，CART是一种用于学习决策树的算法。
模型 (Model): 机器学习算法在训练数据上学习到的具体程序，它将新的数据实例作为输入并输出预测。例如，一个训练好的线性回归模型包含一组特定的权重。
黑盒 (Black Box) vs. 白盒 (White Box):
- 黑盒模型: 指那些内部机制难以理解的模型，如深度神经网络。我们能看到输入和输出，但中间过程不透明。
- 白盒模型: 指那些结构简单、易于理解的模型，如线性回归和决策树。本书称之为“可解释模型”。
数据相关术语:
- 数据集 (Dataset): 训练模型所用的数据集合，通常是表格形式。
- 实例 (Instance): 数据集中的一行，也称样本或数据点。
- 特征 (Feature): 数据集中的一列，是用于预测的输入变量。
- 目标 (Target): 数据集中我们希望模型学会预测的列。
任务与结果:
- 机器学习任务 (Task): 特征和目标的组合，定义了要解决的问题，如分类或回归。
- 预测 (Prediction): 模型对新实例的目标值的估计。

学习要点

明确区分算法（学习过程）和模型（学习结果）。
理解黑盒模型和可解释模型的差异，这是本书的核心议题。
掌握数据集中实例、特征和目标的含义。
知道一个机器学习任务是由数据和预测目标共同定义的。

实践应用

在任何一个机器学习项目中，你都会遇到并使用这些术语：

你会选择一个学习器（算法），如随机森林算法。
在你的数据集上训练它，该数据集由多个实例组成，每个实例都有特征和一个目标。
训练的结果是一个模型（例如，一个训练好的随机森林）。
你使用这个模型对没有见过的新实例进行预测。
如果你的模型是一个黑盒，你将需要使用可解释的机器学习方法来理解它的行为。

关联知识点

前置知识: 1-核心概念-机器学习
后续知识: 4-核心概念-可解释性, 14-理论方法-线性回归

SWUFE Book Knowledge Graph

探索

3-核心概念-术语

核心术语

知识点概述

教材原文

详细解释

学习要点

实践应用

关联知识点

关系图谱

目录

反向链接