论文笔记3《基于信息增益和最小距离分类的决策树改进算法》

本文主要是介绍论文笔记3《基于信息增益和最小距离分类的决策树改进算法》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

2013年《科学技术与工程》期刊

部分摘要:改进后的算法针对决策树在分类过程中遇到的训练集中存在相同属性集,但属于不同类别的实例的情况,不再采用多数表决法判断叶结点的类别,而是采用基于信息增益的属性约简和最小距离分类的新方法进行类别的判断。


算法改进:



算法描述:

(i)    先构造ID3决策树,但在构造的过程中对于具有相同属性集属于不同类别的实例,暂时用null标注它的类别;

(ii)   对决策树中所有类别为的叶结点,调用基于信息增益的最小距离分类器对它们进行重新分类。


实验结果:

    数据:



从图中可以看出树叶1-6都是纯叶结点,树叶7不是纯叶结点。训练集中实例8,9属于树叶7,而实例8和实例9具有相同属性集,但属于不同类别, 下面将采用基于信息增益的最小距离分类来决定树叶的类别。

(1) 计算属性的信息增益并将信息增益归一化处理后结果为:

InfoGain(weather)=0.56

InfoGain(temperature)=0.11

InfoGain(humidity)=0.31

InfoGain(windy)=0.02

(2) 就算叶子7和其他叶节点的距离:

树叶7的中心结点K的各属性值为:(weather=rain,temperature=cool,humidity=normal,windy=yes,tennis=null);

树叶6的中心结点K的各属性值为:(weather=rain,temperature=hot,humidity=high,windy=no,tennis=no);

树叶5的中心结点K的各属性值为:(weather=rain,temperature=warm,humidity=high,windy=no,tennis=yes);

树叶4的中心结点K的各属性值为:(weather=rain,temperature=warm,humidity=high,windy=yes,tennis=no);

…其他同理

则距离D(K,)==0.663;D(K,)=0.663;D(K,)=0.648;

通过比较可知与最近的应该是,因此树叶7的类别应该与树叶4一样为no。



这篇关于论文笔记3《基于信息增益和最小距离分类的决策树改进算法》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/946447

相关文章

深入理解Mysql OnlineDDL的算法

《深入理解MysqlOnlineDDL的算法》本文主要介绍了讲解MysqlOnlineDDL的算法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小... 目录一、Online DDL 是什么?二、Online DDL 的三种主要算法2.1COPY(复制法)

linux查找java项目日志查找报错信息方式

《linux查找java项目日志查找报错信息方式》日志查找定位步骤:进入项目,用tail-f实时跟踪日志,tail-n1000查看末尾1000行,grep搜索关键词或时间,vim内精准查找并高亮定位,... 目录日志查找定位在当前文件里找到报错消息总结日志查找定位1.cd 进入项目2.正常日志 和错误日

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.

Python中经纬度距离计算的实现方式

《Python中经纬度距离计算的实现方式》文章介绍Python中计算经纬度距离的方法及中国加密坐标系转换工具,主要方法包括geopy(Vincenty/Karney)、Haversine、pyproj... 目录一、基本方法1. 使用geopy库(推荐)2. 手动实现 Haversine 公式3. 使用py

SQL Server跟踪自动统计信息更新实战指南

《SQLServer跟踪自动统计信息更新实战指南》本文详解SQLServer自动统计信息更新的跟踪方法,推荐使用扩展事件实时捕获更新操作及详细信息,同时结合系统视图快速检查统计信息状态,重点强调修... 目录SQL Server 如何跟踪自动统计信息更新:深入解析与实战指南 核心跟踪方法1️⃣ 利用系统目录

一文详解如何使用Java获取PDF页面信息

《一文详解如何使用Java获取PDF页面信息》了解PDF页面属性是我们在处理文档、内容提取、打印设置或页面重组等任务时不可或缺的一环,下面我们就来看看如何使用Java语言获取这些信息吧... 目录引言一、安装和引入PDF处理库引入依赖二、获取 PDF 页数三、获取页面尺寸(宽高)四、获取页面旋转角度五、判断

Java中读取YAML文件配置信息常见问题及解决方法

《Java中读取YAML文件配置信息常见问题及解决方法》:本文主要介绍Java中读取YAML文件配置信息常见问题及解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 目录1 使用Spring Boot的@ConfigurationProperties2. 使用@Valu

Java中的雪花算法Snowflake解析与实践技巧

《Java中的雪花算法Snowflake解析与实践技巧》本文解析了雪花算法的原理、Java实现及生产实践,涵盖ID结构、位运算技巧、时钟回拨处理、WorkerId分配等关键点,并探讨了百度UidGen... 目录一、雪花算法核心原理1.1 算法起源1.2 ID结构详解1.3 核心特性二、Java实现解析2.

MySQL中的索引结构和分类实战案例详解

《MySQL中的索引结构和分类实战案例详解》本文详解MySQL索引结构与分类,涵盖B树、B+树、哈希及全文索引,分析其原理与优劣势,并结合实战案例探讨创建、管理及优化技巧,助力提升查询性能,感兴趣的朋... 目录一、索引概述1.1 索引的定义与作用1.2 索引的基本原理二、索引结构详解2.1 B树索引2.2

Linux查看系统盘和SSD盘的容量、型号及挂载信息的方法

《Linux查看系统盘和SSD盘的容量、型号及挂载信息的方法》在Linux系统中,管理磁盘设备和分区是日常运维工作的重要部分,而lsblk命令是一个强大的工具,它用于列出系统中的块设备(blockde... 目录1. 查看所有磁盘的物理信息方法 1:使用 lsblk(推荐)方法 2:使用 fdisk -l(