决策树(Decision Tree) | 算法实现

2024-02-10 15:08

本文主要是介绍决策树(Decision Tree) | 算法实现,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

01 起

决策树相关的理论知识,我们在这篇文章中有详细讲解。

今天我们基于决策树原理,写一个函数来训练决策树吧。本文基于ID3算法构建决策树,此算法构建决策树的中心思想是:

始终寻找信息增益最大的特征作为当前分支的最优特征

信息增益,即:g(D,A)=H(D)-H(D|A)


02 实现思路(ID3)

利用训练数据,训练决策树,主要思路如下,共8个步骤,重点在于递归

  1. 自定义信息熵计算函数,用于计算数据集的信息熵
  2. 自定义数据划分函数,用于根据指定特征的指定取值,划分数据集
  3. step2的自数据集作为输入给step1的函数,可以计算出按某指定特征的某指定取值(A=ai)划分的数据集的信息熵H(Di),同时计算按某指定特征的某指定取值(A=ai)划分的数据集的样本概率|Di|/|D|
  4. 遍历该特征各个取值,计算各取值下划分的数据集的信息熵H(Di)和样本概率|Di|/|D|,相乘,再求和得到得到特征A对数据集D的经验条件熵H(D|A)
  5. 计算特征A对数据集的信息增益g(D,A)=H(D)-H(D|A)
  6. 以此类推,计算各特征对数据集的信息增益,取信息增益最大的特征为最佳划分特征,得到树T1
  7. 对T1各结点继续step3-6,选择信息增益最大的特征,继续划分数据,得到新的决策树
  8. 直到信息增益小于阈值,或无特征可划分,或每个分支下的所有实例都具有相同的分类,决策树完成

下面我们基于这8个步骤的思路,给出python代码。


03 实现

step1 自定义信息熵计算函数,用于计算数据集的信息熵

"""
输入:数据集,每一行是一条数据,最后一列是各条数据集的类别
输出:该数据集的信息熵
思路:
建立一个字典,对数据集各数据的类别计数,
从而计算各类别出现频率(作为概率pi),
最后调用信息熵公式计算 H(D)=-求和(pi*logpi)
"""
def calEntropy(dataset):n=len(dataset)labelCounts={}#对数据集各数据的类别计数for data in dataset:datalabel=data[-1] #取data最后一列,类别列if datalabel not in labelCounts.keys():labelCounts[datalabel]=0labelCounts[datalabel]+=1entropy=0.0#计算各类别出现频率(作为概率pi),调用信息熵公式计算 H(D)=-求和(pi*logpi)for key in labelCounts.keys():prob=float(labelCounts[key])/nentropy -= prob*log(prob,2)return entropy

step2 自定义数据划分函数,用于根据指定特征的指定取值,划分数据集

"""
输入:数据集、特征所在列索引、特征取值
输出:满足指定特征等于指定取值的数据子集
"""
def splitDataset(dataset,index,value):subDataset=[]for data in dataset:if data[index]==value:#抽取除了data[index]的内容(一个特征用于计算其对数据集的经验条件熵时,不需要此特征在子数据集中)splitData=data[:index] #取索引之前的元素splitData.extend(data[index+1:]) #再合并索引之后的元素subDataset.append(splitData)return subDataset

step3~6 选择信息增益最大的特征作为数据集划分特征

"""
输入:数据集
输出:该数据集的最佳划分特征
"""
def chooseFeature(dataset):#初始化numFeature=len(dataset[0])-1 #因为最后一列是类别baseEntropy=calEntropy(dataset) #H(D)bestInfoGain=0.0bestFeatureIndex=-1#创建特征A各取值a的列表for i in range(numFeature):featureList=[data[i] for data in dataset]uniqueValue=set(featureList)empEntropy=0.0 #初始化特征A对数据集D的经验条件熵H(D|A)#计算特征A各取值a的信息熵H(Di)和样本概率|Di|/|D|,并相乘for value in uniqueValue:subDataset=splitDataset(dataset,i,value) #(列索引为i的特征)特征A取value值所划分的子数据集prob=len(subDataset)/float(len(dataset)) #计算|Di|/|D|empEntropy += prob*calEntropy(subDataset) #H(D|A)#取信息增益最大的特征为最佳划分特征infoGain=baseEntropy-empEntropy #信息增益if infoGain>bestInfoGain:bestInfoGain=infoGainbestFeatureIndex=ireturn bestFeatureIndex

step7~8 递归构建决策树

def majorClass(classList):classCount={}for vote in classList:if vote not in classCount.keys():classCount[vote]=0classCount[vote]+=1#对classCount按value降序排序sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)return sortedClassCount[0][0] #返回类别最大的类别名"""
输入:数据集(list类型),数据集特征列表(按在数据集的位置排序)(list类型)
输出:该数据集的决策树
思路:【递归】1. 若数据集属于同一类,则返回该类别,划分停止2. 若数据集所有特征已经遍历,返回当前计数最多的类别为该结点类别,划分停止3. 否则继续分支,调用chooseFeature()函数,选择当前数据集最优特征4. 遍历当前最优特征各属性值,划分数据集,并递归调用自身createTree()构建子数据集的决策树5. 完成
"""
def createTree(dataset,featureLabels):classList=[data[-1] for data in dataset] #取数据集各数据类别#若数据集属于同一类,则返回该类别,划分停止if classList.count(classList[0])==len(classList):return classList[0]#若数据集所有特征已经遍历,返回当前计数最多的类别为该结点类别,划分停止if len(dataset[0])==1:return majorClass(classList)#否则继续分支,调用chooseFeature()函数,选择当前数据集最优特征bestFeatureIndex=chooseFeature(dataset)bestFeature=featureLabels[bestFeatureIndex]#用于存储决策树,字典结构存储树的所有信息,并可体现包含关系desitionTree={bestFeature:{}} del(featureLabels[bestFeatureIndex]) #删除已被用于划分数据的特征#得到当前最优划分特征的各属性值featureValues=[data[bestFeatureIndex] for data in dataset]uniqueValues=set(featureValues)#遍历当前最优特征各属性值,划分数据集,并递归调用自身createTree()构建子数据集的决策树for value in uniqueValues:#得到已删除当前最优划分特征的特征列表,用于递归调用subFeatureLabels=featureLabels[:] #用当前最优划分特征的指定值分割子数据集,用于递归调用subData=splitDataset(dataset,bestFeatureIndex,value) desitionTree[bestFeature][value]=createTree(subData,subFeatureLabels)return desitionTree

至此,决策树训练函数完成,下面我们利用西瓜分类数据集来简单测试一下吧~


04 测试

西瓜分类数据集长这样,基于西瓜的各个特征,判断西瓜是好瓜还是坏瓜:

我们直接调用刚才写好的决策树训练函数,看看西瓜分类数据的决策树吧

watermalon=pd.read_csv(r"D:\python\data\watermalon.txt",sep="\t")
watermalon_list=np.array(watermalon).tolist() #构建数据集
features=watermalon.columns.tolist()[0:-1] #提取特征列表
my_tree=createTree(watermalon_list,features)

最后训练得到的决策树长这样,这是一个嵌套格式的字典,每个子字典代表了一个分支


05 总结

本文基于ID3算法,造了个轮子,给出决策树训练函数,输入列表类型的数据集和数据集的特征列表,可以数据该数据集的分类决策树,得到的决策树使用嵌套格式的字典存储。

但是,嵌套格式的字典并不直观,不能一目了然地观察决策树结构。

别担心,下期我们会就此决策树,给出函数来绘制决策树,帮助我们更加直观地理解训练出来的决策树结构。

同时,我们会在下期给出决策树的利用方法——如何利用训练好的决策树分类测试数据?

敬请期待~~


06 参考

  1. 《统计学习方法》 李航 Chapter5
  2. 《机器学习实战》 Peter Harrington Chapter3

这篇关于决策树(Decision Tree) | 算法实现的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/697423

相关文章

QT Creator配置Kit的实现示例

《QTCreator配置Kit的实现示例》本文主要介绍了使用Qt5.12.12与VS2022时,因MSVC编译器版本不匹配及WindowsSDK缺失导致配置错误的问题解决,感兴趣的可以了解一下... 目录0、背景:qt5.12.12+vs2022一、症状:二、原因:(可以跳过,直奔后面的解决方法)三、解决方

MySQL中On duplicate key update的实现示例

《MySQL中Onduplicatekeyupdate的实现示例》ONDUPLICATEKEYUPDATE是一种MySQL的语法,它在插入新数据时,如果遇到唯一键冲突,则会执行更新操作,而不是抛... 目录1/ ON DUPLICATE KEY UPDATE的简介2/ ON DUPLICATE KEY UP

Python中Json和其他类型相互转换的实现示例

《Python中Json和其他类型相互转换的实现示例》本文介绍了在Python中使用json模块实现json数据与dict、object之间的高效转换,包括loads(),load(),dumps()... 项目中经常会用到json格式转为object对象、dict字典格式等。在此做个记录,方便后续用到该方

JWT + 拦截器实现无状态登录系统

《JWT+拦截器实现无状态登录系统》JWT(JSONWebToken)提供了一种无状态的解决方案:用户登录后,服务器返回一个Token,后续请求携带该Token即可完成身份验证,无需服务器存储会话... 目录✅ 引言 一、JWT 是什么? 二、技术选型 三、项目结构 四、核心代码实现4.1 添加依赖(pom

SpringBoot路径映射配置的实现步骤

《SpringBoot路径映射配置的实现步骤》本文介绍了如何在SpringBoot项目中配置路径映射,使得除static目录外的资源可被访问,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一... 目录SpringBoot路径映射补:springboot 配置虚拟路径映射 @RequestMapp

Python与MySQL实现数据库实时同步的详细步骤

《Python与MySQL实现数据库实时同步的详细步骤》在日常开发中,数据同步是一项常见的需求,本篇文章将使用Python和MySQL来实现数据库实时同步,我们将围绕数据变更捕获、数据处理和数据写入这... 目录前言摘要概述:数据同步方案1. 基本思路2. mysql Binlog 简介实现步骤与代码示例1

Redis实现高效内存管理的示例代码

《Redis实现高效内存管理的示例代码》Redis内存管理是其核心功能之一,为了高效地利用内存,Redis采用了多种技术和策略,如优化的数据结构、内存分配策略、内存回收、数据压缩等,下面就来详细的介绍... 目录1. 内存分配策略jemalloc 的使用2. 数据压缩和编码ziplist示例代码3. 优化的

基于C#实现PDF转图片的详细教程

《基于C#实现PDF转图片的详细教程》在数字化办公场景中,PDF文件的可视化处理需求日益增长,本文将围绕Spire.PDFfor.NET这一工具,详解如何通过C#将PDF转换为JPG、PNG等主流图片... 目录引言一、组件部署二、快速入门:PDF 转图片的核心 C# 代码三、分辨率设置 - 清晰度的决定因

Java Kafka消费者实现过程

《JavaKafka消费者实现过程》Kafka消费者通过KafkaConsumer类实现,核心机制包括偏移量管理、消费者组协调、批量拉取消息及多线程处理,手动提交offset确保数据可靠性,自动提交... 目录基础KafkaConsumer类分析关键代码与核心算法2.1 订阅与分区分配2.2 拉取消息2.3

SpringBoot集成XXL-JOB实现任务管理全流程

《SpringBoot集成XXL-JOB实现任务管理全流程》XXL-JOB是一款轻量级分布式任务调度平台,功能丰富、界面简洁、易于扩展,本文介绍如何通过SpringBoot项目,使用RestTempl... 目录一、前言二、项目结构简述三、Maven 依赖四、Controller 代码详解五、Service