论文笔记3《基于信息增益和最小距离分类的决策树改进算法》

本文主要是介绍论文笔记3《基于信息增益和最小距离分类的决策树改进算法》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2013年《科学技术与工程》期刊

部分摘要:改进后的算法针对决策树在分类过程中遇到的训练集中存在相同属性集,但属于不同类别的实例的情况,不再采用多数表决法判断叶结点的类别,而是采用基于信息增益的属性约简和最小距离分类的新方法进行类别的判断。


算法改进:



算法描述:

(i)    先构造ID3决策树,但在构造的过程中对于具有相同属性集属于不同类别的实例,暂时用null标注它的类别;

(ii)   对决策树中所有类别为的叶结点,调用基于信息增益的最小距离分类器对它们进行重新分类。


实验结果:

    数据:



从图中可以看出树叶1-6都是纯叶结点,树叶7不是纯叶结点。训练集中实例8,9属于树叶7,而实例8和实例9具有相同属性集,但属于不同类别, 下面将采用基于信息增益的最小距离分类来决定树叶的类别。

(1) 计算属性的信息增益并将信息增益归一化处理后结果为:

InfoGain(weather)=0.56

InfoGain(temperature)=0.11

InfoGain(humidity)=0.31

InfoGain(windy)=0.02

(2) 就算叶子7和其他叶节点的距离:

树叶7的中心结点K的各属性值为:(weather=rain,temperature=cool,humidity=normal,windy=yes,tennis=null);

树叶6的中心结点K的各属性值为:(weather=rain,temperature=hot,humidity=high,windy=no,tennis=no);

树叶5的中心结点K的各属性值为:(weather=rain,temperature=warm,humidity=high,windy=no,tennis=yes);

树叶4的中心结点K的各属性值为:(weather=rain,temperature=warm,humidity=high,windy=yes,tennis=no);

…其他同理

则距离D(K,)==0.663;D(K,)=0.663;D(K,)=0.648;

通过比较可知与最近的应该是,因此树叶7的类别应该与树叶4一样为no。



这篇关于论文笔记3《基于信息增益和最小距离分类的决策树改进算法》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/946447

相关文章

SQL Server跟踪自动统计信息更新实战指南

《SQLServer跟踪自动统计信息更新实战指南》本文详解SQLServer自动统计信息更新的跟踪方法,推荐使用扩展事件实时捕获更新操作及详细信息,同时结合系统视图快速检查统计信息状态,重点强调修... 目录SQL Server 如何跟踪自动统计信息更新:深入解析与实战指南 核心跟踪方法1️⃣ 利用系统目录

一文详解如何使用Java获取PDF页面信息

《一文详解如何使用Java获取PDF页面信息》了解PDF页面属性是我们在处理文档、内容提取、打印设置或页面重组等任务时不可或缺的一环,下面我们就来看看如何使用Java语言获取这些信息吧... 目录引言一、安装和引入PDF处理库引入依赖二、获取 PDF 页数三、获取页面尺寸(宽高)四、获取页面旋转角度五、判断

Java中读取YAML文件配置信息常见问题及解决方法

《Java中读取YAML文件配置信息常见问题及解决方法》:本文主要介绍Java中读取YAML文件配置信息常见问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 目录1 使用Spring Boot的@ConfigurationProperties2. 使用@Valu

Java中的雪花算法Snowflake解析与实践技巧

《Java中的雪花算法Snowflake解析与实践技巧》本文解析了雪花算法的原理、Java实现及生产实践,涵盖ID结构、位运算技巧、时钟回拨处理、WorkerId分配等关键点,并探讨了百度UidGen... 目录一、雪花算法核心原理1.1 算法起源1.2 ID结构详解1.3 核心特性二、Java实现解析2.

MySQL中的索引结构和分类实战案例详解

《MySQL中的索引结构和分类实战案例详解》本文详解MySQL索引结构与分类,涵盖B树、B+树、哈希及全文索引,分析其原理与优劣势,并结合实战案例探讨创建、管理及优化技巧,助力提升查询性能,感兴趣的朋... 目录一、索引概述1.1 索引的定义与作用1.2 索引的基本原理二、索引结构详解2.1 B树索引2.2

Linux查看系统盘和SSD盘的容量、型号及挂载信息的方法

《Linux查看系统盘和SSD盘的容量、型号及挂载信息的方法》在Linux系统中,管理磁盘设备和分区是日常运维工作的重要部分,而lsblk命令是一个强大的工具,它用于列出系统中的块设备(blockde... 目录1. 查看所有磁盘的物理信息方法 1:使用 lsblk(推荐)方法 2:使用 fdisk -l(

SpringBoot如何对密码等敏感信息进行脱敏处理

《SpringBoot如何对密码等敏感信息进行脱敏处理》这篇文章主要为大家详细介绍了SpringBoot对密码等敏感信息进行脱敏处理的几个常用方法,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录​1. 配置文件敏感信息脱敏​​2. 日志脱敏​​3. API响应脱敏​​4. 其他注意事项​​总结

Java计算经纬度距离的示例代码

《Java计算经纬度距离的示例代码》在Java中计算两个经纬度之间的距离,可以使用多种方法(代码示例均返回米为单位),文中整理了常用的5种方法,感兴趣的小伙伴可以了解一下... 目录1. Haversine公式(中等精度,推荐通用场景)2. 球面余弦定理(简单但精度较低)3. Vincenty公式(高精度,

自研四振子全向增益天线! 中兴问天BE6800Pro+路由器拆机和详细评测

《自研四振子全向增益天线!中兴问天BE6800Pro+路由器拆机和详细评测》中兴问天BE6800Pro+路由器已经上市,新品配备自研四振子全向增益天线,售价399元,国补到手339.15元,下面我们... 中兴问天BE6800Pro+路由器自上市以来,凭借其“旗舰性能,中端价格”的定位,以及搭载三颗自研芯片

使用雪花算法产生id导致前端精度缺失问题解决方案

《使用雪花算法产生id导致前端精度缺失问题解决方案》雪花算法由Twitter提出,设计目的是生成唯一的、递增的ID,下面:本文主要介绍使用雪花算法产生id导致前端精度缺失问题的解决方案,文中通过代... 目录一、问题根源二、解决方案1. 全局配置Jackson序列化规则2. 实体类必须使用Long封装类3.