决策树算法简介
决策树算法简介
0.0722019.06.02 12:05:48字数 1,035阅读 1,869
树模型是机器学习中非常常用的一种算法,既可以处理分类问题,也可以处理回归问题,更多的时候是用来处理分类问题的。
我们用下图做一个示例,小明家有五口人,爷爷、奶奶、妈妈、妹妹和自己,我们现在要判断谁喜欢打游戏。这里我们选了两个特征年龄和性别,先用年龄进行分类,年龄大于15岁的一组,年龄小于15岁的一组,再使用性别特征对小于15岁的这组进行分类,男生一类,女生一类,最终就分出了男生喜欢打游戏。
这个过程跟我们高中数学学过的流程图是一样的。在计算机语言中,我们将这样的模型称为树模型,一组数据经过不同的特征进行多次分支,最后形成一棵枝繁叶茂的树。这些特征我们称之为节点,第一个特征我们称之为根节点,最后无法再分的节点我们称之为叶子结点(最终决策结果)。
树的组成
从图中可以看出,树模型是由根结点,叶子结点和非叶子节点构成的。
决策树示例.png
决策树的构造与训练
训练阶段:从给定的数据集训练出一棵树(从根节点开始选择特征,如何进行特征切分),这是决策树的难点。像上图中例子,无论选择年龄还是性别,对于整个决策树的构造,基本没有什么影响。但是对于特征多的数据来说,我们在选择切分特征时是有一定的先后顺序的,前后不可颠倒。
测试阶段:根据构造出来的树模型从上到下走一遍就好了。 分类节点的选择标准 -- 熵
熵,看到这个词,我第一个想到的是高中化学中关于“熵”的定义。熵是衡量系统混乱程度的量,任何化学反应系统都是朝着熵增加的方向进行。但在分类任务中,我们希望能够将系统中不同种类的事物清清楚楚的划分开,是朝着熵减的方向进行。
H(x) = -∑pi * log(pi), i=1,2,3,4.......
举个例子:
A集合[1,1,1,1,1,1,1,2,2]
B集合[1,2,3,4,5,6,7,8,9]
显然A集合的熵值要低的多,因为A集合中只有两类值,相对稳定一些,而B集合中的类别非常多,熵值就会大很多。在分类任务中,我们希望通过节点分支,系统的熵值能大幅度的减小。
信息增益
数据通过节点分支后,系统熵值的减小幅度。假设分类前系统的熵值H(x) = 0.96,分类后H(x) = 0.64,信息增益则为0.32。我们通过信息增益的大小来选择节点,信息增益值最大的作为根节点,其次选出第二节点,第三节点等等。
分类节点的选择标准 -- GiNi系数
Gini(p) = ∑p(1-p) = 1-∑p^2
基尼系数与熵类似,只是计算方式不同,当系统数据越纯时,p趋近于1,gini系数趋近于0。
决策树的剪枝策略
理论上,通过树模型,我们可以将任何数据区分开,只要我们无限去分类。但是这样会存在一个问题,我们构造出来的决策树枝繁叶茂(如图),这样对于训练集数据的分类效果非常好,但是在测试集上的表现就比较差,这就导致了我们机器学习中经常出现的过拟合问题。
Decision tree.jpg
所以我们就需要对决策树进行修剪,就像园丁一样,对花园定期修剪。决策树的剪枝策略有两种,预剪枝和后剪枝。
预剪枝:在构造决策树的过程中,提前添加限制条件,如:限制深度,比如只能分叉3次;叶子结点个数;叶子结点样本数,信息增益量等。这也是我们常用的方法。
后剪枝:当建立完决策树后来进行剪枝。
最后编辑于
:2020.02.26 08:37:08
更多精彩内容,就在简书APP
"小礼物走一走,来简书关注我"
还没有人赞赏,支持一下
总资产13共写了7.1W字获得187个赞共183个粉丝
序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
沈念sama阅读 203,671评论 6赞 477
序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
茶点故事阅读 63,642评论 5赞 365
文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
茶点故事阅读 35,608评论 2赞 321
正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,698评论 1赞 329
序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
茶点故事阅读 38,958评论 3赞 307
文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
茶点故事阅读 42,425评论 2赞 342
推荐阅读更多精彩内容
决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
制杖灶灶阅读 5,826评论 0赞 25
Decision Trees (DTs) 是一种用来classification和regression的无参监督学...
婉妃阅读 6,066评论 0赞 8
一、决策树应用体验 分类 从上面可以看出,决策树对分类具有线性回归无可比拟的优势, 如果对未参与训练的数据集是...
1、模型原理 (一)原理 1、原理:引入信息熵(不确定程度)的概念,通过计算各属性下的信息增益程度(信息增益越大,...
一. 决策树(decision tree):是一种基本的分类与回归方法,此处主要讨论分类的决策树。在分类问题中,表...
相关知识
python利用c4.5决策树对鸢尾花卉数据集进行分类(iris)
【2016年第1期】基于大数据的小麦蚜虫发生程度决策树预测分类模型
基于决策树构建鸢尾花数据的分类模型并绘制决策树模型
基于决策树的水稻病虫害发生程度预测模型——以芜湖市为例
基于决策树的水稻病虫害发生程度预测模型
【人工智能】基于分类算法的学生学业预警系统应用
基于R语言的害虫预测算法设计
机器学习算法应用于智能农业植物病虫害检测.pptx
程序员面试、算法研究、机器学习、大模型/ChatGPT/AIGC、论文审稿、具身智能、RAG等11大系列集锦
决策树对鸢尾花数据的处理实践
网址: 决策树算法简介 https://m.huajiangbk.com/newsview513573.html