机器学习
知识点概述
机器学习是一套使计算机能够基于数据做出和改进预测或行为的方法。它是一种从数据中学习模式,并将这些模式应用于新数据的过程,是实现人工智能的一种核心技术。
教材原文
机器学习是计算机基于数据做出和改进预测或行为的一套方法。 例如,为了预测房屋的价格,计算机将从过去的房屋销售中学习模式。本书关注于监督机器学习,它涵盖了所有的预测问题,其中我们会有一个数据集,我们已经知道感兴趣的结果(如过去的房价),并希望学习预测新数据的结果。有监督的学习不包括例如聚类任务(相当于无监督学习),在这些任务中我们没有感兴趣的特定结果,但希望找到数据点的聚类。此外,诸如强化学习之类的也被排除,在这种情况下,智能体(Agent)基于环境(Environment)做出动作(Action)来学习优化某种奖励(Reward)(例如玩俄罗斯方块的计算机)。监督学习的目标是学习一个预测模型,将数据的特征(如房屋大小、位置、楼层类型等)映射到输出(如房屋价格)。如果输出的是类别,则任务称为分类;如果输出是数值,则任务称为回归。机器学习算法通过估计参数(如权重)或学习结构(如树)来学习模型,且算法由一个最小化的分数或损失函数指导。例如,在房屋价格预测中,机器将最小化房屋的估计价格和预测价格之间的差值,然后,就可以使用经过充分训练的机器学习模型来预测新实例。
详细解释
- 背景和动机: 传统的编程方法需要为计算机提供明确的指令来完成任务。然而,对于许多复杂的问题,如图像识别或自然语言处理,编写明确的规则是极其困难甚至不可能的。机器学习通过让计算机从数据中自动学习规律,克服了这一限制,实现了从“常规编程”到“间接编程”的范式转换。
- 核心原理和方法: 机器学习的核心是算法。算法从“训练数据”中学习,并生成一个“模型”。这个模型可以接受新数据作为输入,并输出预测。学习过程通常涉及最小化一个“损失函数”,该函数衡量模型预测的准确性。
- 关键步骤:
- 数据采集: 收集包含预测目标和相关信息的特征数据。
- 模型训练: 将数据输入机器学习算法,生成预测模型。
- 模型应用: 将新数据输入模型,以获得预测,并将其集成到产品或流程中。
- 优缺点分析:
- 优点: 能够处理复杂问题,超越人类在某些任务上的表现,具有高速度、可重复性和规模化的优势。
- 缺点: 许多高性能模型(如深度神经网络)是不透明的“黑盒”,其内部决策逻辑难以理解,这给模型的信任、调试和公平性带来了挑战。
学习要点
- 理解机器学习与传统编程的根本区别。
- 掌握监督学习、无监督学习和强化学习的基本概念和区别。
- 了解机器学习任务的基本流程:数据采集、模型训练、模型应用。
- 认识到模型可解释性的重要性,尤其是在处理黑盒模型时。
实践应用
- 产品推荐: 电商网站根据你的浏览和购买历史推荐你可能感兴趣的商品。
- 信用评分: 银行使用机器学习模型评估贷款申请人的信用风险。
- 医疗诊断: 分析医疗影像(如X光片、MRI)辅助医生诊断疾病。
- 欺诈检测: 识别信用卡交易中的异常模式以防止欺诈。
关联知识点
- 后续知识: 2-核心概念-监督学习, 14-理论方法-线性回归, 20-理论方法-决策树
- 相关知识: 4-核心概念-可解释性