首页 > 分享 > 以鸢尾花数据集为例，用Python对决策树进行分类

以鸢尾花数据集为例，用Python对决策树进行分类

花匠小妙招
2024-12-03 23:38

全文共4730字，预计学习时长10分钟

图片来源：https://www.pexels.com/@andree-brennan-974943

基于多种原因，决策树是一种广受欢迎的监督学习方法。决策树的优点包括可以同时用于回归和分类，易于解释且不需要特征缩放。同时决策树也存在劣势，容易出现过度拟合就是其中之一。本教程主要介绍了用于分类的决策树，也称为分类树。

此外，本教程还将涵盖：

· 分类树的解剖结构（树的深度、根节点、决策节点、叶节点/终端节点）。

· 分类树如何进行预测

· 如何使用scikit-learn（Python）制作分类树

· 超参数调整

现在，让我们开始吧！

什么是分类树？

分类和回归树（CART）术语最早由利奥·布雷曼提出，用于指代可以用于分类或回归预测建模问题的决策树算法。本篇文章主要涵盖分类树。

分类树

本质上，分类树就是设计一系列问题来进行分类。下图是在鸢尾花数据集（花种）上训练的分类树。根（棕色）和决策（蓝色）节点包含分成子节点的问题。根节点是最顶层的决策节点。换句话说，它是开始进行分类的节点。叶节点（绿色），也称为终端节点，是没有子节点的节点。叶节点是通过多数投票分配类的地方。

分类树到三种花种之一的分类（鸢尾花数据集）

如何使用分类树

要使用分类树，请从根节点（棕色）开始，然后一直进行分类，直到到达叶（终端）节点。使用下图中的分类树，想象有一朵花，花瓣长4.5厘米，然后对其进行分类。从根节点开始，首先设置第一个问题，“花瓣长度（cm）是否≤2.45”？长度若大于2.45，则为假。接着进入下一个决策节点，“花瓣长度（cm）是否≤4.95”？这是真的，所以你可以推测花种为杂色。这只是一个例子。

分类树是如何生成的？（非数学版）

分类树学习一系列是否/然后问题，每个问题涉及一个特征和一个分裂点。查看一下部分树（A），问题：“花瓣长度（cm）≤2.45”根据某个值（在这种情况下为2.45）将数据分成两个分支。节点之间的值称为分裂点。分裂点的值取得好（导致最大信息增益的值）是分类能否有序进行的关键。查看下图中的B部分，分割点左侧的所有点都被归为蓝色鸢尾花，而分割点右侧的所有点都被分类为杂色鸢尾花。

该图显示38个点都被正确归为蓝色。它是一个纯节点。分类树不会在纯节点上分割。这不会产生下一步信息增益。但是，不纯的节点可以进行下一步分类。请注意，图B的右侧显示许多点被错误分类为杂色鸢尾花。换句话说，它包含两个不同类别的点（virginica和versicolor）。分类树是一种贪婪算法，默认情况下还将继续分裂，直到有一个纯节点。同样，算法选择也会为不纯节点选择最佳分类点（我们将在下一节中介绍数学方法&#x