新用户注册入口 老用户登录入口

[转载]机器学习经典算法决策树原理详解(简单易懂)

文章作者:转载 更新时间:2023-08-27 21:53:08 阅读数量:283
文章标签:决策树信息增益信息熵划分属性选择ID3算法树剪枝
本文摘要:这篇文章介绍了决策树这一机器学习方法,尤其是经典的ID3算法。决策树通过属性测试进行递归划分,其中选择最优划分属性的核心指标是信息增益,计算时涉及信息熵的概念。在生成决策树过程中,会根据信息增益大小来决定最佳划分属性以提高节点纯度,并对决策树进行剪枝处理,如预剪枝和后剪枝,以避免过拟合问题,优化模型泛化性能。整个决策树构建流程紧密围绕信息熵、信息增益、划分属性选择以及剪枝等关键技术展开。
转载文章

本篇文章为转载内容。原文链接:https://blog.csdn.net/Sophia_11/article/details/113355312。

该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。

作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。

↑ 点击上方【计算机视觉联盟】关注我们

最经典的决策树算法有ID3、C4.5、CART,其中ID3算法是最早被提出的,它可以处理离散属性样本的分类,C4.5和CART算法则可以处理更加复杂的分类问题,本文重点介绍ID3算法

1、决策树基本流程

决策树 (decision tree) 是一类常见的机器学习方法。它是对给定的数据集学到一个模型对新示例进行分类的过程。下图所示为一个流程图的决策树,长方形代表判断模块(decision block),椭圆形代表终止模块(terminating block),表示已经得出结论,可以终止运行。从判断模块引出的左右箭头称作分支(branch),可以达到另一个判断模块或终止模块。

决策过程是基于结构来进行决策的。如下图,首先检查邮件域名地址,如果地址为myEmployer.com,则将其分类为“无聊时需要阅读的邮件”。否则,则检查邮件内容里是否包含单词“曲棍球”,如果包含则归类为“需要及时处理的朋友邮件”,如果不包含则归类到“无需阅读的垃圾邮件”

流程图形式的决策树

显然,决策过程的最终结论对应了我们所希望的判定结果,例如"需要阅读"或"不需要阅读”。

决策过程中提出的每个判定问题都是对某个属性的"测试",如邮件地址域名为?是否包含“曲棍球”?

每个测试的结果或是导出最终结论,或是导出进一步的判定问题,其考虑范围是在上次决策结果的限定范围之内,例如若邮件地址域名不是myEmployer.com之后再判断是否包含“曲棍球”。

一般的,决策树包含一个根节点、若干个内部节点和若干个叶节点根节点包含样本全集叶节点对应于决策结果,例如“无聊时需要阅读的邮件”。其他每个结点则对应于一个属性测试;每个节点包含的样本集合根据属性测试的结果被划分到子结点中。

决策树学习基本算法

显然,决策树的生成是一个递归过程.在决策树基本算法中,有三种情形会导致递归返回: (1)当前结点包含的样本全属于同一类别,无需划分; (2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分; (3)当前结点包含的样本集合为空,不能划分。

2、划分选择

决策树算法的关键是如何选择最优划分属性。一般而言,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的"纯度" (purity)越来越高。

(1)信息增益

信息熵

"信息熵" (information entropy)是度量样本集合纯度最常用的一种指标,定义为信息的期望。假定当前样本集合 D 中第 k 类样本所占的比例为

 ,则 D 的信息熵定义为:

                                                                             
H(D)的值越小,则D的纯度越高信息增益

                                                                 
一般而言,信息增益越大,则意味着使周属性 来进行划分所获得的"纯度提升"越大。因此,我们可用信息增益来进行决策树的划分属性选择信息增益越大,属性划分越好。


以西瓜书中表 4.1 中的西瓜数据集 2.0 为例,该数据集包含17个训练样例,用以学习一棵能预测设剖开的是不是好瓜的决策树.显然,。

在决策树学习开始时,根结点包含 D 中的所有样例,其中正例占 ,反例占 

信息熵计算为

我们要计算出当前属性集合{色泽,根蒂,敲声,纹理,脐部,触感}中每个属性的信息增益。以属性"色泽"为例,它有 3 个可能的取值: {青绿,乌黑,浅自}。若使用该属性对 D 进行划分,则可得到 3 个子集,分别记为:D1 (色泽=青绿), D2 (色泽2=乌黑), D3 (色泽=浅白)。

子集 D1 包含编号为 {1,4,6,10,13,17} 的 6 个样例,其中正例占 p1=3/6 ,反例占p2=3/6; 

D2 包含编号为 {2,3,7,8, 9,15} 的 6 个样例,其中正例占 p1=4/6 ,反例占p2=2/6; 

D3 包含编号为 {5,11,12,14,16} 的 5 个样例,其中正例占 p1=1/5 ,反例占p2=4/5;

根据信息熵公式可以计算出用“色泽”划分之后所获得的3个分支点的信息熵为:

                                                            

根据信息增益公式计算出属性“色泽”的信息增益为(Ent表示信息熵):

类似的,可以计算出其他属性的信息增益:

显然,属性"纹理"的信息增益最大,于是它被选为划分属性。图 4.3 给出了基于"纹理"对根结点进行划分的结果,各分支结点所包含的样例子集显示在结点中。

然后,决策树学习算法将对每个分支结点做进一步划分。以图 4.3 中第一个分支结点( "纹理=清晰" )为例,该结点包含的样例集合 D 1 中有编号为 {1, 2, 3, 4, 5, 6, 8, 10, 15} 的 9 个样例,可用属性集合为{色泽,根蒂,敲声,脐部 ,触感}。基于 D1计算出各属性的信息增益:

"根蒂"、 "脐部"、 "触感" 3 个属性均取得了最大的信息增益,可任选其中之一作为划分属性.类似的,对每个分支结点进行上述操作,最终得到的决策树如圈 4.4 所示。

3、剪枝处理

剪枝 (pruning)是决策树学习算法对付"过拟合"的主要手段。决策树剪枝的基本策略有"预剪枝" (prepruning)和"后剪枝 "(post"
pruning) [Quinlan, 1993]。

预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划
分并将当前结点标记为叶结点;

后剪枝则是先从训练集生成一棵完整的决策树,然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点。

往期回顾

● 带你详细了解机器视觉竞赛—ILSVRC竞赛

● 到底什么是“机器学习”?机器学习有哪些基本概念?(简单易懂)

● 带你自学Python系列(一):变量和简单数据类型(附思维导图)

● 带你自学Python系列(二):Python列表总结-思维导图

● 2018年度最强的30个机器学习项目!

● 斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能(附195页PDF)

● 一文详解计算机视觉的广泛应用:网络压缩、视觉问答、可视化、风格迁移

本篇文章为转载内容。原文链接:https://blog.csdn.net/Sophia_11/article/details/113355312。

该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。

作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。

相关阅读
文章标题:[转载][洛谷P1082]同余方程

更新时间:2023-02-18
[转载][洛谷P1082]同余方程
文章标题:[转载]webpack优化之HappyPack实战

更新时间:2023-08-07
[转载]webpack优化之HappyPack实战
文章标题:[转载]oracle 同时更新多表,在Oracle数据库中同时更新两张表的简单方法

更新时间:2023-09-10
[转载]oracle 同时更新多表,在Oracle数据库中同时更新两张表的简单方法
文章标题:[转载][Unity] 包括场景互动与射击要素的俯视角闯关游戏Demo

更新时间:2024-03-11
[转载][Unity] 包括场景互动与射击要素的俯视角闯关游戏Demo
文章标题:[转载]程序员也分三六九等?等级差异,一个看不起一个!

更新时间:2024-05-10
[转载]程序员也分三六九等?等级差异,一个看不起一个!
文章标题:[转载]海贼王 动漫 全集目录 分章节 精彩打斗剧集

更新时间:2024-01-12
[转载]海贼王 动漫 全集目录 分章节 精彩打斗剧集
名词解释
作为当前文章的名词解释,仅对当前文章有效。
信息熵在机器学习和信息论中,信息熵是一个衡量随机变量不确定性的度量指标。在决策树算法中,信息熵被用来评估样本集合的纯度,即集合内部各类别分布的均匀程度。一个集合的信息熵越小,表示该集合内的样本类别越集中、纯度越高;反之,信息熵越大,则意味着集合内各类别分布越分散,纯度越低。例如,在决策树构建过程中,若某个属性划分后子集的信息熵降低,说明通过这个属性将数据集进行了有效的分类。
信息增益信息增益是决策树学习中的一个重要概念,用于选择最优划分属性。它是基于信息熵计算得到的,反映的是使用某一属性进行划分前后的信息不确定性减少的程度。具体来说,信息增益等于划分前的数据集信息熵减去划分后各子集信息熵的加权和。在构造决策树时,通常会选择信息增益最大的属性作为当前节点的划分依据,因为这代表使用该属性划分能最大程度地提高决策树的纯度或减少决策过程中的不确定性。
树剪枝树剪枝是决策树学习中用于防止过拟合的重要技术手段。它主要分为预剪枝(prepruning)和后剪枝(post pruning)两种策略。预剪枝是指在构建决策树的过程中,对每个结点在进行划分之前先进行估计,如果当前结点划分不能显著提升模型的泛化性能,则停止划分并将当前结点标记为叶结点。而后剪枝则是先生成一棵完整的决策树,然后自底向上地考察每一个非叶结点,如果将该结点及其所有后代替换为一个叶结点能够提升模型的泛化能力,则执行剪枝操作。通过剪枝,可以简化决策树结构,降低模型复杂性,从而避免过拟合问题,提高模型在未知数据上的预测准确性。
延伸阅读
作为当前文章的延伸阅读,仅对当前文章有效。
决策树算法作为一种直观且易于理解的机器学习方法,在实际应用中广泛应用于数据分析、预测模型构建以及分类问题解决。随着技术发展,决策树算法不断优化与扩展,如集成学习中的随机森林(Random Forest)和梯度提升决策树(Gradient Boosting Decision Tree, GBDT),它们通过构建并结合多个决策树来提高预测准确率和稳定性。
最近的研究进展显示,决策树在处理大规模数据集时表现出了新的潜力。2021年,《Pattern Recognition Letters》期刊上的一项研究探讨了如何改进决策树算法以适应流式大数据环境,提出了实时更新的增量决策树算法,能够在连续接收新数据的同时进行高效地模型更新与优化。
此外,信息增益这一核心指标也在理论与实践中得到深化。有学者针对信息增益存在的偏好属性数量多的问题,提出了信息增益比(Information Gain Ratio)等改进措施,进一步提升了决策树对特征重要性的判断能力。同时,基于熵的决策树算法在强化学习、深度学习等领域也有所融合创新,例如深度决策树网络的设计,尝试将决策树的可解释性优势与神经网络的非线性表达能力相结合,以应对更复杂的决策问题。
而在实际应用方面,决策树在医疗诊断、金融风控、推荐系统等多个场景下发挥关键作用。例如,最新的研究成果中,科研团队利用改进型决策树算法对新冠病毒患者临床数据进行分析,有效识别出影响病情发展的关键因素,为制定诊疗方案提供了有力支持。
总之,尽管经典的ID3、C4.5、CART算法奠定了决策树的基础,但决策树算法的研究并未止步,其在理论优化、与其他AI技术融合以及解决现实世界复杂问题等方面展现出了持续的生命力与广阔的应用前景。
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
pgrep -f pattern - 根据进程的完整命令行字符串查找进程ID。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
RabbitMQ实战中因API版本问题导致消息丢失的排查与修复 03-12 jQuery元素滚动动画库插件-ScrollMagic 02-09 属性级联同步与实体管理:Hibernate实战案例详解 01-27 jQuery超酷3D包装盒封面旋转特效 05-16 ElSteps组件动态改变当前步骤时样式更新滞后问题的Vue.js解决方案 02-22 java中处理异常的方式和语句 01-13 AI助手的工作原理与限制:无法按特定要求撰写的原因及信息处理分析 12-27 代码写的html网红钟表 12-18 简约大气文艺工作者作品展示网站模板 09-21 本次刷新还10个文章未展示,点击 更多查看。
ClickHouse系统重启情境下的数据丢失风险与应对:写入一致性、同步模式及备份恢复策略实践 08-27 jQuery带放大镜的迷你幻灯片插件 08-16 简约手机UI设计公司网站模板下载 04-30 绿色经典响应式主机服务器托管网站模板 04-25 PostgreSQL中应对密码过期警告:安全更改密码的步骤与注意事项 04-17 docker改tag(docker改配置文件) 03-17 [转载]蓝桥 利息计算(Java) 03-11 jquery文字动画特效插件animatext 01-22 大气简洁手机电子产品展示柜台前端模板 01-22 [转载]ubuntu用户和权限介绍 01-10 可爱毛绒玩具网上商城响应式网站模板 01-05
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"