知识点:支持向量机
知识点概述
支持向量机(SVM)是一种强大的二分类模型,其基本思想是寻找一个能将两类数据点分得最开的超平面,即最大化两类之间的间隔(Margin)。其原始问题是一个凸二次规划问题。
详细解释
- 核心思想 (最大间隔): 在所有能将两类数据分开的超平面中,SVM寻找位于“正中间”的那个,使得离超平面最近的数据点(即支持向量)到超平面的距离最大。
- 优化问题 (硬间隔SVM): 对于线性可分数据,问题可以表示为: 这是一个凸二次规划问题。
- 软间隔与Hinge损失: 为了处理非线性可分数据,引入松弛变量 ,允许一些点分错。优化问题变为: 这等价于最小化Hinge损失函数。
- 核技巧 (Kernel Trick): 通过核函数,SVM可以将数据映射到高维空间,从而在原始空间中实现非线性分类,而无需显式地进行坐标变换。
学习要点
- 理解最大间隔是SVM的核心思想。
- 知道支持向量是决定分类边界的关键数据点。
- 掌握硬间隔和软间隔SVM的优化模型形式(二次规划)。
- 了解Hinge损失函数的概念。
- 了解核技巧的作用。
实践应用
- 文本分类、图像识别、生物信息学等诸多领域。
关联知识点
- 前置知识: 31-应用案例-逻辑回归, 23-理论方法-分离超平面定理
- 后续知识: 53-理论方法-对偶理论
- 相关知识: 42-核心概念-线性规划