matlab 决策树分类调参,ID3决策树算法 - osc_dwi1do0o的个人空间 - OSCHINA - 中文开源技术交流社区...

本文主要是介绍matlab 决策树分类调参,ID3决策树算法 - osc_dwi1do0o的个人空间 - OSCHINA - 中文开源技术交流社区...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一,简介

ID3(Iterative Dichotmizer 3)

1.什么是决策树学习

决策树学习是以训练或样本数据集为基础的归纳学习算法,是用于分类和预测的重要技术。

2.ID3核心思想

核心思想是利用信息熵原理选择信息增益最大的属性作为分类属性,递归地拓展决策树的分枝,完成决策树的构造

3.决策树学习本质是什么

决策树学习本质上是从训练数据集中归纳出一组分类规则

二,基础概念

a.信息熵

熵(entropy)表示随机变量不确定性的度量,也就是熵越大,变量的不确定性就越大。设

25e9032d01337cb7d68c8f35118185a8.png是一个有限值的离散随机变量,其概率分布为:

7a5bb11c8c182fb6d6ff3744aaedba06.png

ca8f8b6cbf875fdeaafb920ad017956b.png

则随机变量

1e985b35fc368f6cee47f0dd4d32cf4b.png的熵定义为

eaac0a0f1e3b15253f5f79deca70afe1.png

(若

1d2120b0b87211b60f5898045c825c3a.png,定义

6ff1b3c115785ecd7b96d36fa1e90640.png)

b.条件熵

条件熵

fb1486dd34070d9898486bea35913fa4.png表示在已知随机变量

2141ebb7e4fecbe882856ef6d96e8df7.png条件下随机变量

f16070db028d20203b19d6318969682b.png的不确定性。随机变量

ae4386ebdc01f2ec037966d2d90cf8a6.png给定的条件下随机变量

f959e66e9f527b9e96a850b00810eae8.png的条件熵为

f93c48a20d365453304d87bc2fc56a94.png

abb57228d7c0967d8c344ef7b8e14857.png

c.信息增益

特征

8ef1e75acf861266112108fde7839ac2.png对训练数据集

5749700a6008a470eade93d9a95134c0.png的信息增益

7b1532802dce68ea5bb1fbf62c5c9178.png,定义为集合

00e8ebb460a12b5b4dac37acd4e5a7d9.png的经验熵

dea4037432550b4cc9dd818888807467.png与特征A给定条件下

6b4b00ad713ed49799664b19e4bc4be8.png的经验条件熵

b18102bbb3810355aa9cb5ae0721456b.png之差,即

94db008cea6b3c1877381923bd914e4e.png

信息增益大的特征具有更强的分类能力

d.总结

给定训练数据集

91c1331e22aab22864cfc5c48df817a5.png和特征

c2c99433ab2e0cbe1649858abaaf989f.png

经验熵

6aec528649a77bf99cc7c5bb09a6a7fb.png表示对数据集

1abcf24ca149c9e2f841d87e211b4fc7.png进行分类的不确定性

经验条件熵

a77ed824de00b2f325502b59cb670b15.png表示在特征

c58d1090ec4217b753812848d7057a1a.png给定的条件下对数据集

0ff70a979e137d94eaf56ccbc7400221.png进行分类的不确定性

904dd41729d05f22a4f7f847e365186a.png表示由于特征

dce9aa908141d080c0fbdf3229c41c1f.png而使得对数据

61d882ebf9383d66c46ce6371caebd5c.png的分类的不确定性减少的程度。

e.决策树进行分类的步骤

利用样本数据集构造一颗决策树,并通过构造的决策树建立相应的分类模型。这个过程实际上是从一个数据中获取知识,进行规制提炼的过程。

利用已经建立完成的决策树模型对数据集进行分类。即对未知的数据集元组从根节点依次进行决策树的游历,通过一定的路径游历至某叶子节点,从而找到该数据元组所在的类或类的分布。

三、示例

银行客户信用卡额度预测和判断

客户

信用记录

收入

年龄

工作性质

额度

C1

正常

较低

偏大

稳定

C2

正常

较低

偏大

一般

C3

良好

较低

偏大

稳定

C4

欠佳

普通

偏大

稳定

C5

欠佳

较高

正常

稳定

C6

欠佳

较高

正常

一般

C7

良好

较高

正常

一般

C8

正常

普通

偏大

稳定

C9

正常

较高

正常

稳定

C10

欠佳

普通

正常

稳定

C11

正常

普通

正常

一般

C12

良好

普通

偏大

一般

C13

良好

较低

正常

稳定

C14

欠佳

普通

偏大

一般

目标分类:信用卡额度:高=9,低=5

用来建立ID3决策树的客户情况的四个属性:

信用记录={良好、正常、欠佳}

收入={较低、普通、较高}

年龄={偏大、正常}

工作性质={稳定=8、一般=6}

ID3决策树的生成步骤

选择决策树的根节点,选着标准:根据属性的信息增益

节点属性划分

对划分的子集按照上述过程进行反复迭代来获得树的所有内部节点

最后根据节点、内部节点以及叶节点间的关系构建决策树

(1)计算分类属性'"额度"的熵

"额度"共有14条记录,其中高额度9条,低额度5条。

2f4e59fe8899c17591c46bd9cf980757.png

8ab41c049b99979b85c9c4e60dfa12a6.png是类

b0f4c895d28f573144ebac5a13a4d7d2.png

48b83f9d319dc29357175ebc653c8b4e.png中的比例或概率。

959d8fda5206b1119002ca1b200bf646.png

(2)计算各条件属性的熵

首先计算出不同属性值的熵:

4b4764808953b6b2842aa876d230b515.png

接着再计算整个属性的熵:

b1dcb19343450ae933970e4faa7d1879.png

其中,

11e2b597b5f828a9853db72de977a097.png

ee82e3fbe4269649d44a21a582697897.png中属性

962d1cd2aa13e5dc8724de4b2d76f3e4.png的值为

6150407be86f06083c28a4201776e537.png的子集,

234eac2041af01185567ab281652a4f6.png是类

4c33e7fecda6a4ea5bb66adb74e4e1f6.png

15008f1511ed705a271cd711d26c8d5d.png中的比例或概率。

a."工作性质"的熵

稳定(wd):8=6高+2低

一般(yb):6=3高+3低

81b698870dd421b5628eac03dc1c37cf.png

c13b515511d0fb580e79c800bdd65c94.png

由"稳定"和一般"一般"的熵可求得属性"工作性质"的熵为:

f6d6ef3873be2b4672d6809d03f405fe.png

b. 信用记录的熵

正常:5 =2高+3低

良好:4=4高+0低

欠佳:5=3高+2低

db6f6f4a728fbffd85ab3f58117cc406.png

934c6dd64407c0ea1f3f5390ca395119.png

b0806b7f08e20b99f56e9c4d12033a00.png

可得属性"信用记录"的熵为

7cea090f421fa243bd846679d1375e61.png

c."收入"的熵

较高:4=3高+1低

7c99dd277598548b95bc04423c0789a1.png

普通:6=4高+2低

654440e11934cb3094ad46cac2f9f0a1.png

较低:4=2高+2低

587da7f5086128b14b8b100212b4943c.png

可得属性收入的熵为

8a7187d464e21c5d6d3a64d007e81b8e.png

d."年龄"的熵

正常:7=6高+1低

偏大:7=3高+4低

3d0e64dcfdfc972f47191490b6fca2ae.png

0503dcf382b30fc3f35ed9a7a5ab0c98.png

可得属性为"年龄"的熵:

0c9148899622517686b2aca1d4a94f43.png

(3)计算各条件属性的增益

9470c60b7da5d27a86e36ac7cb32001a.png,计算各个条件属性的增益

ead96aee6838b000f1a0451e95362c10.png

a2d5ffe221806d1de7c5a695ed997529.png

5cd30bff0faf1c6534cda2169494532f.png

df751e0bc7750e0755d0244a9f62eb81.png

"信用记录"有着最大的增益,所以选择"信用记录"属性作为ID3决策树的根节点。

(4)计算和选择各分支节点

完成了根节点的选择后接下来选择各分支节点。因为"信用记录"有三种类型,所以根节点就有三个分支"良好","正常"和"欠佳",由于其中"良好"的熵为0就不考虑它了,只处理"正常"和"欠佳"

a."正常"分支节点的选择

"信用记录"为正常的有5条,

8d865557a8df109c98d37499a3e18f83.png。通过之前的计算已经得到了"信用记录"为正常的熵:

0ed176cc83e346cfe8b5daa132b2ed51.png,接着计算"信用记录"为正常的条件下各属性的熵

客户

信用记录

收入

年龄

工作性质

额度

C1

正常

较低

偏大

稳定

C2

正常

较低

偏大

一般

C8

正常

普通

偏大

稳定

C9

正常

较高

正常

稳定

C11

正常

普通

正常

一般

(a)"收入"的熵

收入有三个属性值"较高"、"普通"和"较低",它们的熵分别为:

正常+较高:1=1高

c9b06f00bfc99a0fe08d476e9bffea53.png

正常+普通:2 =1高+1低

3d423a33824cfc6020f9469137bff360.png

正常+较低:2=2低

d99f315c59914e4f101167f523e0c2b4.png

可得属性"收入"的熵:

04ec4ff056c8cb91fbe57ab2ec1853ee.png

(b)"年龄"的熵

"年龄"={正常,偏大}

正常+正常:2=2高

f0ee6770e73955815361238fd308ea4b.png

正常+偏大:3=3低

536c129ed099243e75b6bcba27de2011.png

可得属性"年龄"的熵

c147be04318df082e391daab464067bc.png

(c)"工作性质"的熵

"工作性质"={"一般","稳定"}

正常+一般:2=1高+1低

45ff5b34573700acd81d8e6db5543f5f.png

正常+稳定:3=1高+2低

3870ab4deace1fa6d30f9ea4b510d503.png

可得"工作性质"的熵

4bbb3450793d1d7d35f854d923c38c8a.png

(d)计算

31218de8e7a80235cd4f41ecaddcb93b.png的各属性增益

根据上面计算所得的熵值可以得到"信用记录"为"正常"的记录中其余三个属性的增益分别为:

fe1fe4c6a15437ac3fd156f0800a86b0.png

7c8606e7e03ed697752c5e2261fd19f5.png

b63dc6dbd0bbf31289c8d40bcf23e3c5.png

"年龄"在

e1bf5e2e4c82a478ff0558799b6bf238.png的三个属性中有着最大的增益,所以将"年龄"作为

9e0438fafa5325f660c2f8d40aff638f.png的分类点,又由于

72977190018fbf59667108d53b051b9f.png,所以这一分支结束。

b."欠佳"分支节点的选择

"信用记录"为"欠佳"的有

客户

信用记录

收入

年龄

工作性质

额度

C4

欠佳

普通

偏大

稳定

C5

欠佳

较高

正常

稳定

C6

欠佳

较高

正常

一般

C10

欠佳

普通

正常

稳定

C14

欠佳

普通

偏大

一般

b2db6db6fe0b6ed2f0546393123cd4a9.png

收入的熵

欠佳+较高:2=1高+1低

192b8ae375b9f7a1321ddc3ba476d0be.png

欠佳+普通:3=2高+1低

88ad0f655990fda830b5baa76220bd49.png

欠佳+较低:0

25aa14dd9a60e52796c5c97659c4e13a.png

可得属性"收入"的熵为:

c6db9a0337fed08755e433b6a7820d2c.png

(b)"年龄"的熵

欠佳+正常 :3=2高+1低

30c6f41abb4f9028981d7db88f5da5aa.png

欠佳+偏大:2=1高+1低

cc8621203ba8241d30980e793d71c289.png

(c)"工作性质"的熵

欠佳+稳定: 3=3高

46ce3306e41c1b39970bcb6e0ced1a64.png

欠佳+一般:2=2低

0f787a50a18da2ffbbf9365e051da55b.png

(d)计算

2347e1f37386a6a88fad0ac8d17bef70.png的各属性增益

4baac56a3e4b92b053fb2d71c06b6ec0.png

e1f57d8f63e2d3462b8f120e5bdf3297.png

5c7e4cd92be98b540a0f6bde660f18fb.png

可以看到"工作性质"在

9828f056dce6abef26e494a2cea6d1e6.png三个属性中有着最大的增益,所以将"工作性质"作为

2ad880175cb3a52767e44107466d37cb.png的分类节点

(5)生成叶节点

因为

0938effaf8657e43479af10744fb756b.png的"年龄"属性中"高"和"正常"的熵都为0,所以这一支的非叶节点划分结束,并以"低"和"高"作为"高"和"正常"分支的叶节点。

ae3e7ae636c25862160419da394c26da.png的"工作性质"中"一般"和"稳定"的熵为0,所以这一支的非叶节点也结束划分,并以"低"和高作为"一般"和"稳定"的分支的节点

c9dda4915975043ae0772bedc0c3c8e5.png

可得如下描述:

a, 如果"信用记录"为"正常"并且"年龄"偏大,那么授予的额度低

b, 如果"信用记录"为"正常"并且"年龄"正常,那么授予的额度高

c, 如果"信用记录"为"良好",那么授予额度高

d, 如果"信用记录"为"欠佳"并且"工作性质"一般,那么授予的额度低

e, 如果"信用记录"为"欠佳"并且"工作性质"稳定,那么授予的额度高

四、参考与致谢

1.李航《统计学习方法》

2.张睿《ID3决策树算法分析与改进》

这篇关于matlab 决策树分类调参,ID3决策树算法 - osc_dwi1do0o的个人空间 - OSCHINA - 中文开源技术交流社区...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/415193

相关文章

Python中高级文本模式匹配与查找技术指南

《Python中高级文本模式匹配与查找技术指南》文本处理是编程世界的永恒主题,而模式匹配则是文本处理的基石,本文将深度剖析PythonCookbook中的核心匹配技术,并结合实际工程案例展示其应用,希... 目录引言一、基础工具:字符串方法与序列匹配二、正则表达式:模式匹配的瑞士军刀2.1 re模块核心AP

SQL Server安装时候没有中文选项的解决方法

《SQLServer安装时候没有中文选项的解决方法》用户安装SQLServer时界面全英文,无中文选项,通过修改安装设置中的国家或地区为中文中国,重启安装程序后界面恢复中文,解决了问题,对SQLSe... 你是不是在安装SQL Server时候发现安装界面和别人不同,并且无论如何都没有中文选项?这个问题也

springboot自定义注解RateLimiter限流注解技术文档详解

《springboot自定义注解RateLimiter限流注解技术文档详解》文章介绍了限流技术的概念、作用及实现方式,通过SpringAOP拦截方法、缓存存储计数器,结合注解、枚举、异常类等核心组件,... 目录什么是限流系统架构核心组件详解1. 限流注解 (@RateLimiter)2. 限流类型枚举 (

Python实现PDF按页分割的技术指南

《Python实现PDF按页分割的技术指南》PDF文件处理是日常工作中的常见需求,特别是当我们需要将大型PDF文档拆分为多个部分时,下面我们就来看看如何使用Python创建一个灵活的PDF分割工具吧... 目录需求分析技术方案工具选择安装依赖完整代码实现使用说明基本用法示例命令输出示例技术亮点实际应用场景扩

Python实现中文文本处理与分析程序的示例详解

《Python实现中文文本处理与分析程序的示例详解》在当今信息爆炸的时代,文本数据的处理与分析成为了数据科学领域的重要课题,本文将使用Python开发一款基于Python的中文文本处理与分析程序,希望... 目录一、程序概述二、主要功能解析2.1 文件操作2.2 基础分析2.3 高级分析2.4 可视化2.5

Java中的雪花算法Snowflake解析与实践技巧

《Java中的雪花算法Snowflake解析与实践技巧》本文解析了雪花算法的原理、Java实现及生产实践,涵盖ID结构、位运算技巧、时钟回拨处理、WorkerId分配等关键点,并探讨了百度UidGen... 目录一、雪花算法核心原理1.1 算法起源1.2 ID结构详解1.3 核心特性二、Java实现解析2.

Redis出现中文乱码的问题及解决

《Redis出现中文乱码的问题及解决》:本文主要介绍Redis出现中文乱码的问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 问题的产生2China编程. 问题的解决redihttp://www.chinasem.cns数据进制问题的解决中文乱码问题解决总结

MySQL中的索引结构和分类实战案例详解

《MySQL中的索引结构和分类实战案例详解》本文详解MySQL索引结构与分类,涵盖B树、B+树、哈希及全文索引,分析其原理与优劣势,并结合实战案例探讨创建、管理及优化技巧,助力提升查询性能,感兴趣的朋... 目录一、索引概述1.1 索引的定义与作用1.2 索引的基本原理二、索引结构详解2.1 B树索引2.2

Qt如何实现文本编辑器光标高亮技术

《Qt如何实现文本编辑器光标高亮技术》这篇文章主要为大家详细介绍了Qt如何实现文本编辑器光标高亮技术,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录实现代码函数作用概述代码详解 + 注释使用 QTextEdit 的高亮技术(重点)总结用到的关键技术点应用场景举例示例优化建议

RedisTemplate默认序列化方式显示中文乱码的解决

《RedisTemplate默认序列化方式显示中文乱码的解决》本文主要介绍了SpringDataRedis默认使用JdkSerializationRedisSerializer导致数据乱码,文中通过示... 目录1. 问题原因2. 解决方案3. 配置类示例4. 配置说明5. 使用示例6. 验证存储结果7.