全文共4730字,预计学习时长10分钟
图片来源:https://www.pexels.com/@andree-brennan-974943
基于多种原因,决策树是一种广受欢迎的监督学习方法。决策树的优点包括可以同时用于回归和分类,易于解释且不需要特征缩放。同时决策树也存在劣势,容易出现过度拟合就是其中之一。本教程主要介绍了用于分类的决策树,也称为分类树。
此外,本教程还将涵盖:
· 分类树的解剖结构(树的深度、根节点、决策节点、叶节点/终端节点)。
· 分类树如何进行预测
· 如何使用scikit-learn(Python)制作分类树
· 超参数调整
现在,让我们开始吧!
什么是分类树?
分类和回归树(CART)术语最早由利奥·布雷曼提出,用于指代可以用于分类或回归预测建模问题的决策树算法。本篇文章主要涵盖分类树。
分类树
本质上,分类树就是设计一系列问题来进行分类。下图是在鸢尾花数据集(花种)上训练的分类树。根(棕色)和决策(蓝色)节点包含分成子节点的问题。根节点是最顶层的决策节点。换句话说,它是开始进行分类的节点。叶节点(绿色),也称为终端节点,是没有子节点的节点。叶节点是通过多数投票分配类的地方。
分类树到三种花种之一的分类(鸢尾花数据集)
如何使用分类树
要使用分类树,请从根节点(棕色)开始,然后一直进行分类,直到到达叶(终端)节点。使用下图中的分类树,想象有一朵花,花瓣长4.5厘米,然后对其进行分类。从根节点开始,首先设置第一个问题,“花瓣长度(cm)是否≤2.45”?长度若大于2.45,则为假。接着进入下一个决策节点,“花瓣长度(cm)是否≤4.95”?这是真的,所以你可以推测花种为杂色。这只是一个例子。
分类树是如何生成的?(非数学版)
分类树学习一系列是否/然后问题,每个问题涉及一个特征和一个分裂点。查看一下部分树(A),问题:“花瓣长度(cm)≤2.45”根据某个值(在这种情况下为2.45)将数据分成两个分支。节点之间的值称为分裂点。分裂点的值取得好(导致最大信息增益的值)是分类能否有序进行的关键。查看下图中的B部分,分割点左侧的所有点都被归为蓝色鸢尾花,而分割点右侧的所有点都被分类为杂色鸢尾花。
该图显示38个点都被正确归为蓝色。它是一个纯节点。分类树不会在纯节点上分割。这不会产生下一步信息增益。但是,不纯的节点可以进行下一步分类。请注意,图B的右侧显示许多点被错误分类为杂色鸢尾花。换句话说,它包含两个不同类别的点(virginica和versicolor)。分类树是一种贪婪算法,默认情况下还将继续分裂,直到有一个纯节点。同样,算法选择也会为不纯节点选择最佳分类点(我们将在下一节中介绍数学方法&#x
相关知识
python利用c4.5决策树对鸢尾花卉数据集进行分类(iris)
python实战(一)——iris鸢尾花数据集分类
【python数据挖掘课程】十九.鸢尾花数据集可视化、线性回归、决策树花样分析
决策树可视化:鸢尾花数据集分类(附代码数据集)
基于机器学习的鸢尾花数据集的三分类算法的实现 C++
对鸢尾花进行分类预测
数据分析入门——以鸢尾花分类为例
决策树完成鸢尾花分类
Python语言基于CART决策树的鸢尾花数据分类
python 鸢尾花数据集下载
网址: 以鸢尾花数据集为例,用Python对决策树进行分类 https://m.huajiangbk.com/newsview854481.html
上一篇: 机器学习python集成算法 |
下一篇: 基于注解形式Excel导入功能 |