核心术语
知识点概述
本知识点梳理了机器学习领域中常用的一系列核心术语,为后续学习建立统一的语言基础。
教材原文
为避免歧义引起混淆,本书中使用的术语定义如下: 算法 (Algorithm) 是机器为达到特定目标而遵循的一组规则… 机器学习 (Machine Learning) 是一套方法, 能够允许计算机从数据中学习… **学习器(Learner)或机器学习算法(Machine Learning Algorithm)**是用来从数据中学习机器学习模型的程序… 机器学习模型 (Machine Learning Model) 是将输入映射到预测的学习程序… 黑盒模型 (Black Box Model) 是一个不揭示其内部机制的系统… **可解释的机器学习(Interpretable Machine Learning)**是指使机器学习系统的行为和预测对人类可理解的方法和模型。 **数据集(Dataset)**是一个表格,其中包含机器要从中学习的数据… 实例 (Instance) 表现为数据集中的一行… **特征(Features)**是用于对输入进行预测或分类的。 目标 (Target) 是机器要去学会预测的信息。 机器学习任务 (Machine Learning Task) 是一个具有特征和目标的数据集的组合。 预测 (Prediction) 是机器学习模型根据给定的特征“猜测”目标值应该是什么。
详细解释
- 算法 (Algorithm): 学习器或机器学习算法,是用于从数据中学习模型的程序。例如,CART是一种用于学习决策树的算法。
- 模型 (Model): 机器学习算法在训练数据上学习到的具体程序,它将新的数据实例作为输入并输出预测。例如,一个训练好的线性回归模型包含一组特定的权重。
- 黑盒 (Black Box) vs. 白盒 (White Box):
- 黑盒模型: 指那些内部机制难以理解的模型,如深度神经网络。我们能看到输入和输出,但中间过程不透明。
- 白盒模型: 指那些结构简单、易于理解的模型,如线性回归和决策树。本书称之为“可解释模型”。
- 数据相关术语:
- 数据集 (Dataset): 训练模型所用的数据集合,通常是表格形式。
- 实例 (Instance): 数据集中的一行,也称样本或数据点。
- 特征 (Feature): 数据集中的一列,是用于预测的输入变量。
- 目标 (Target): 数据集中我们希望模型学会预测的列。
- 任务与结果:
- 机器学习任务 (Task): 特征和目标的组合,定义了要解决的问题,如分类或回归。
- 预测 (Prediction): 模型对新实例的目标值的估计。
学习要点
- 明确区分算法(学习过程)和模型(学习结果)。
- 理解黑盒模型和可解释模型的差异,这是本书的核心议题。
- 掌握数据集中实例、特征和目标的含义。
- 知道一个机器学习任务是由数据和预测目标共同定义的。
实践应用
在任何一个机器学习项目中,你都会遇到并使用这些术语:
- 你会选择一个学习器(算法),如随机森林算法。
- 在你的数据集上训练它,该数据集由多个实例组成,每个实例都有特征和一个目标。
- 训练的结果是一个模型(例如,一个训练好的随机森林)。
- 你使用这个模型对没有见过的新实例进行预测。
- 如果你的模型是一个黑盒,你将需要使用可解释的机器学习方法来理解它的行为。
关联知识点
- 前置知识: 1-核心概念-机器学习
- 后续知识: 4-核心概念-可解释性, 14-理论方法-线性回归