matlab 决策树分类调参,ID3决策树算法 - osc_dwi1do0o的个人空间 - OSCHINA - 中文开源技术交流社区...

本文主要是介绍matlab 决策树分类调参,ID3决策树算法 - osc_dwi1do0o的个人空间 - OSCHINA - 中文开源技术交流社区...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一,简介

ID3(Iterative Dichotmizer 3)

1.什么是决策树学习

决策树学习是以训练或样本数据集为基础的归纳学习算法,是用于分类和预测的重要技术。

2.ID3核心思想

核心思想是利用信息熵原理选择信息增益最大的属性作为分类属性,递归地拓展决策树的分枝,完成决策树的构造

3.决策树学习本质是什么

决策树学习本质上是从训练数据集中归纳出一组分类规则

二,基础概念

a.信息熵

熵(entropy)表示随机变量不确定性的度量,也就是熵越大,变量的不确定性就越大。设

25e9032d01337cb7d68c8f35118185a8.png是一个有限值的离散随机变量,其概率分布为:

7a5bb11c8c182fb6d6ff3744aaedba06.png

ca8f8b6cbf875fdeaafb920ad017956b.png

则随机变量

1e985b35fc368f6cee47f0dd4d32cf4b.png的熵定义为

eaac0a0f1e3b15253f5f79deca70afe1.png

(若

1d2120b0b87211b60f5898045c825c3a.png,定义

6ff1b3c115785ecd7b96d36fa1e90640.png)

b.条件熵

条件熵

fb1486dd34070d9898486bea35913fa4.png表示在已知随机变量

2141ebb7e4fecbe882856ef6d96e8df7.png条件下随机变量

f16070db028d20203b19d6318969682b.png的不确定性。随机变量

ae4386ebdc01f2ec037966d2d90cf8a6.png给定的条件下随机变量

f959e66e9f527b9e96a850b00810eae8.png的条件熵为

f93c48a20d365453304d87bc2fc56a94.png

abb57228d7c0967d8c344ef7b8e14857.png

c.信息增益

特征

8ef1e75acf861266112108fde7839ac2.png对训练数据集

5749700a6008a470eade93d9a95134c0.png的信息增益

7b1532802dce68ea5bb1fbf62c5c9178.png,定义为集合

00e8ebb460a12b5b4dac37acd4e5a7d9.png的经验熵

dea4037432550b4cc9dd818888807467.png与特征A给定条件下

6b4b00ad713ed49799664b19e4bc4be8.png的经验条件熵

b18102bbb3810355aa9cb5ae0721456b.png之差,即

94db008cea6b3c1877381923bd914e4e.png

信息增益大的特征具有更强的分类能力

d.总结

给定训练数据集

91c1331e22aab22864cfc5c48df817a5.png和特征

c2c99433ab2e0cbe1649858abaaf989f.png

经验熵

6aec528649a77bf99cc7c5bb09a6a7fb.png表示对数据集

1abcf24ca149c9e2f841d87e211b4fc7.png进行分类的不确定性

经验条件熵

a77ed824de00b2f325502b59cb670b15.png表示在特征

c58d1090ec4217b753812848d7057a1a.png给定的条件下对数据集

0ff70a979e137d94eaf56ccbc7400221.png进行分类的不确定性

904dd41729d05f22a4f7f847e365186a.png表示由于特征

dce9aa908141d080c0fbdf3229c41c1f.png而使得对数据

61d882ebf9383d66c46ce6371caebd5c.png的分类的不确定性减少的程度。

e.决策树进行分类的步骤

利用样本数据集构造一颗决策树,并通过构造的决策树建立相应的分类模型。这个过程实际上是从一个数据中获取知识,进行规制提炼的过程。

利用已经建立完成的决策树模型对数据集进行分类。即对未知的数据集元组从根节点依次进行决策树的游历,通过一定的路径游历至某叶子节点,从而找到该数据元组所在的类或类的分布。

三、示例

银行客户信用卡额度预测和判断

客户

信用记录

收入

年龄

工作性质

额度

C1

正常

较低

偏大

稳定

C2

正常

较低

偏大

一般

C3

良好

较低

偏大

稳定

C4

欠佳

普通

偏大

稳定

C5

欠佳

较高

正常

稳定

C6

欠佳

较高

正常

一般

C7

良好

较高

正常

一般

C8

正常

普通

偏大

稳定

C9

正常

较高

正常

稳定

C10

欠佳

普通

正常

稳定

C11

正常

普通

正常

一般

C12

良好

普通

偏大

一般

C13

良好

较低

正常

稳定

C14

欠佳

普通

偏大

一般

目标分类:信用卡额度:高=9,低=5

用来建立ID3决策树的客户情况的四个属性:

信用记录={良好、正常、欠佳}

收入={较低、普通、较高}

年龄={偏大、正常}

工作性质={稳定=8、一般=6}

ID3决策树的生成步骤

选择决策树的根节点,选着标准:根据属性的信息增益

节点属性划分

对划分的子集按照上述过程进行反复迭代来获得树的所有内部节点

最后根据节点、内部节点以及叶节点间的关系构建决策树

(1)计算分类属性'"额度"的熵

"额度"共有14条记录,其中高额度9条,低额度5条。

2f4e59fe8899c17591c46bd9cf980757.png

8ab41c049b99979b85c9c4e60dfa12a6.png是类

b0f4c895d28f573144ebac5a13a4d7d2.png

48b83f9d319dc29357175ebc653c8b4e.png中的比例或概率。

959d8fda5206b1119002ca1b200bf646.png

(2)计算各条件属性的熵

首先计算出不同属性值的熵:

4b4764808953b6b2842aa876d230b515.png

接着再计算整个属性的熵:

b1dcb19343450ae933970e4faa7d1879.png

其中,

11e2b597b5f828a9853db72de977a097.png

ee82e3fbe4269649d44a21a582697897.png中属性

962d1cd2aa13e5dc8724de4b2d76f3e4.png的值为

6150407be86f06083c28a4201776e537.png的子集,

234eac2041af01185567ab281652a4f6.png是类

4c33e7fecda6a4ea5bb66adb74e4e1f6.png

15008f1511ed705a271cd711d26c8d5d.png中的比例或概率。

a."工作性质"的熵

稳定(wd):8=6高+2低

一般(yb):6=3高+3低

81b698870dd421b5628eac03dc1c37cf.png

c13b515511d0fb580e79c800bdd65c94.png

由"稳定"和一般"一般"的熵可求得属性"工作性质"的熵为:

f6d6ef3873be2b4672d6809d03f405fe.png

b. 信用记录的熵

正常:5 =2高+3低

良好:4=4高+0低

欠佳:5=3高+2低

db6f6f4a728fbffd85ab3f58117cc406.png

934c6dd64407c0ea1f3f5390ca395119.png

b0806b7f08e20b99f56e9c4d12033a00.png

可得属性"信用记录"的熵为

7cea090f421fa243bd846679d1375e61.png

c."收入"的熵

较高:4=3高+1低

7c99dd277598548b95bc04423c0789a1.png

普通:6=4高+2低

654440e11934cb3094ad46cac2f9f0a1.png

较低:4=2高+2低

587da7f5086128b14b8b100212b4943c.png

可得属性收入的熵为

8a7187d464e21c5d6d3a64d007e81b8e.png

d."年龄"的熵

正常:7=6高+1低

偏大:7=3高+4低

3d0e64dcfdfc972f47191490b6fca2ae.png

0503dcf382b30fc3f35ed9a7a5ab0c98.png

可得属性为"年龄"的熵:

0c9148899622517686b2aca1d4a94f43.png

(3)计算各条件属性的增益

9470c60b7da5d27a86e36ac7cb32001a.png,计算各个条件属性的增益

ead96aee6838b000f1a0451e95362c10.png

a2d5ffe221806d1de7c5a695ed997529.png

5cd30bff0faf1c6534cda2169494532f.png

df751e0bc7750e0755d0244a9f62eb81.png

"信用记录"有着最大的增益,所以选择"信用记录"属性作为ID3决策树的根节点。

(4)计算和选择各分支节点

完成了根节点的选择后接下来选择各分支节点。因为"信用记录"有三种类型,所以根节点就有三个分支"良好","正常"和"欠佳",由于其中"良好"的熵为0就不考虑它了,只处理"正常"和"欠佳"

a."正常"分支节点的选择

"信用记录"为正常的有5条,

8d865557a8df109c98d37499a3e18f83.png。通过之前的计算已经得到了"信用记录"为正常的熵:

0ed176cc83e346cfe8b5daa132b2ed51.png,接着计算"信用记录"为正常的条件下各属性的熵

客户

信用记录

收入

年龄

工作性质

额度

C1

正常

较低

偏大

稳定

C2

正常

较低

偏大

一般

C8

正常

普通

偏大

稳定

C9

正常

较高

正常

稳定

C11

正常

普通

正常

一般

(a)"收入"的熵

收入有三个属性值"较高"、"普通"和"较低",它们的熵分别为:

正常+较高:1=1高

c9b06f00bfc99a0fe08d476e9bffea53.png

正常+普通:2 =1高+1低

3d423a33824cfc6020f9469137bff360.png

正常+较低:2=2低

d99f315c59914e4f101167f523e0c2b4.png

可得属性"收入"的熵:

04ec4ff056c8cb91fbe57ab2ec1853ee.png

(b)"年龄"的熵

"年龄"={正常,偏大}

正常+正常:2=2高

f0ee6770e73955815361238fd308ea4b.png

正常+偏大:3=3低

536c129ed099243e75b6bcba27de2011.png

可得属性"年龄"的熵

c147be04318df082e391daab464067bc.png

(c)"工作性质"的熵

"工作性质"={"一般","稳定"}

正常+一般:2=1高+1低

45ff5b34573700acd81d8e6db5543f5f.png

正常+稳定:3=1高+2低

3870ab4deace1fa6d30f9ea4b510d503.png

可得"工作性质"的熵

4bbb3450793d1d7d35f854d923c38c8a.png

(d)计算

31218de8e7a80235cd4f41ecaddcb93b.png的各属性增益

根据上面计算所得的熵值可以得到"信用记录"为"正常"的记录中其余三个属性的增益分别为:

fe1fe4c6a15437ac3fd156f0800a86b0.png

7c8606e7e03ed697752c5e2261fd19f5.png

b63dc6dbd0bbf31289c8d40bcf23e3c5.png

"年龄"在

e1bf5e2e4c82a478ff0558799b6bf238.png的三个属性中有着最大的增益,所以将"年龄"作为

9e0438fafa5325f660c2f8d40aff638f.png的分类点,又由于

72977190018fbf59667108d53b051b9f.png,所以这一分支结束。

b."欠佳"分支节点的选择

"信用记录"为"欠佳"的有

客户

信用记录

收入

年龄

工作性质

额度

C4

欠佳

普通

偏大

稳定

C5

欠佳

较高

正常

稳定

C6

欠佳

较高

正常

一般

C10

欠佳

普通

正常

稳定

C14

欠佳

普通

偏大

一般

b2db6db6fe0b6ed2f0546393123cd4a9.png

收入的熵

欠佳+较高:2=1高+1低

192b8ae375b9f7a1321ddc3ba476d0be.png

欠佳+普通:3=2高+1低

88ad0f655990fda830b5baa76220bd49.png

欠佳+较低:0

25aa14dd9a60e52796c5c97659c4e13a.png

可得属性"收入"的熵为:

c6db9a0337fed08755e433b6a7820d2c.png

(b)"年龄"的熵

欠佳+正常 :3=2高+1低

30c6f41abb4f9028981d7db88f5da5aa.png

欠佳+偏大:2=1高+1低

cc8621203ba8241d30980e793d71c289.png

(c)"工作性质"的熵

欠佳+稳定: 3=3高

46ce3306e41c1b39970bcb6e0ced1a64.png

欠佳+一般:2=2低

0f787a50a18da2ffbbf9365e051da55b.png

(d)计算

2347e1f37386a6a88fad0ac8d17bef70.png的各属性增益

4baac56a3e4b92b053fb2d71c06b6ec0.png

e1f57d8f63e2d3462b8f120e5bdf3297.png

5c7e4cd92be98b540a0f6bde660f18fb.png

可以看到"工作性质"在

9828f056dce6abef26e494a2cea6d1e6.png三个属性中有着最大的增益,所以将"工作性质"作为

2ad880175cb3a52767e44107466d37cb.png的分类节点

(5)生成叶节点

因为

0938effaf8657e43479af10744fb756b.png的"年龄"属性中"高"和"正常"的熵都为0,所以这一支的非叶节点划分结束,并以"低"和"高"作为"高"和"正常"分支的叶节点。

ae3e7ae636c25862160419da394c26da.png的"工作性质"中"一般"和"稳定"的熵为0,所以这一支的非叶节点也结束划分,并以"低"和高作为"一般"和"稳定"的分支的节点

c9dda4915975043ae0772bedc0c3c8e5.png

可得如下描述:

a, 如果"信用记录"为"正常"并且"年龄"偏大,那么授予的额度低

b, 如果"信用记录"为"正常"并且"年龄"正常,那么授予的额度高

c, 如果"信用记录"为"良好",那么授予额度高

d, 如果"信用记录"为"欠佳"并且"工作性质"一般,那么授予的额度低

e, 如果"信用记录"为"欠佳"并且"工作性质"稳定,那么授予的额度高

四、参考与致谢

1.李航《统计学习方法》

2.张睿《ID3决策树算法分析与改进》

这篇关于matlab 决策树分类调参,ID3决策树算法 - osc_dwi1do0o的个人空间 - OSCHINA - 中文开源技术交流社区...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/415193

相关文章

Java中的雪花算法Snowflake解析与实践技巧

《Java中的雪花算法Snowflake解析与实践技巧》本文解析了雪花算法的原理、Java实现及生产实践,涵盖ID结构、位运算技巧、时钟回拨处理、WorkerId分配等关键点,并探讨了百度UidGen... 目录一、雪花算法核心原理1.1 算法起源1.2 ID结构详解1.3 核心特性二、Java实现解析2.

Redis出现中文乱码的问题及解决

《Redis出现中文乱码的问题及解决》:本文主要介绍Redis出现中文乱码的问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 问题的产生2China编程. 问题的解决redihttp://www.chinasem.cns数据进制问题的解决中文乱码问题解决总结

MySQL中的索引结构和分类实战案例详解

《MySQL中的索引结构和分类实战案例详解》本文详解MySQL索引结构与分类,涵盖B树、B+树、哈希及全文索引,分析其原理与优劣势,并结合实战案例探讨创建、管理及优化技巧,助力提升查询性能,感兴趣的朋... 目录一、索引概述1.1 索引的定义与作用1.2 索引的基本原理二、索引结构详解2.1 B树索引2.2

Qt如何实现文本编辑器光标高亮技术

《Qt如何实现文本编辑器光标高亮技术》这篇文章主要为大家详细介绍了Qt如何实现文本编辑器光标高亮技术,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以了解下... 目录实现代码函数作用概述代码详解 + 注释使用 QTextEdit 的高亮技术(重点)总结用到的关键技术点应用场景举例示例优化建议

RedisTemplate默认序列化方式显示中文乱码的解决

《RedisTemplate默认序列化方式显示中文乱码的解决》本文主要介绍了SpringDataRedis默认使用JdkSerializationRedisSerializer导致数据乱码,文中通过示... 目录1. 问题原因2. 解决方案3. 配置类示例4. 配置说明5. 使用示例6. 验证存储结果7.

Java中的登录技术保姆级详细教程

《Java中的登录技术保姆级详细教程》:本文主要介绍Java中登录技术保姆级详细教程的相关资料,在Java中我们可以使用各种技术和框架来实现这些功能,文中通过代码介绍的非常详细,需要的朋友可以参考... 目录1.登录思路2.登录标记1.会话技术2.会话跟踪1.Cookie技术2.Session技术3.令牌技

Web技术与Nginx网站环境部署教程

《Web技术与Nginx网站环境部署教程》:本文主要介绍Web技术与Nginx网站环境部署教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、Web基础1.域名系统DNS2.Hosts文件3.DNS4.域名注册二.网页与html1.网页概述2.HTML概述3.

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面:本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.

Java使用WebView实现桌面程序的技术指南

《Java使用WebView实现桌面程序的技术指南》在现代软件开发中,许多应用需要在桌面程序中嵌入Web页面,例如,你可能需要在Java桌面应用中嵌入一部分Web前端,或者加载一个HTML5界面以增强... 目录1、简述2、WebView 特点3、搭建 WebView 示例3.1 添加 JavaFX 依赖3

Springboot实现推荐系统的协同过滤算法

《Springboot实现推荐系统的协同过滤算法》协同过滤算法是一种在推荐系统中广泛使用的算法,用于预测用户对物品(如商品、电影、音乐等)的偏好,从而实现个性化推荐,下面给大家介绍Springboot... 目录前言基本原理 算法分类 计算方法应用场景 代码实现 前言协同过滤算法(Collaborativ