决策树实现图像分类(JMU-机器学习作业)

2024-02-07 14:30

本文主要是介绍决策树实现图像分类(JMU-机器学习作业),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

决策树实现图像分类(JMU-机器学习作业)

文章目录

  • 决策树实现图像分类(JMU-机器学习作业)
    • 决策树
    • 先验知识
      • 信息熵
      • 条件熵
    • 信息增益
    • 决策树剪枝
      • 预剪枝
      • 后剪枝
    • 离散型数据分类代码
      • 运行结果:
    • 连续型数据分类代码
      • 运行结果:

决策树

决策树算法属于有监督机器学习算法中的一类经典算法,最早的概念由心理学家E.B.Hunt于1962年提出,意在模仿人类做决策的一系列过程。算法的一大特点便是符合直觉且非常直观,可解释性强。决策树算法兴起于上世纪80年代,在这期间诞生了许多有名的决策树算法,其中最著名的便属三种决策树方法,分别是ID3[QuinLan 1986], C4.5[QuinLan 1993]和CART[Breiman et al. 1984]。其中ID3和C4.5主要用于分类任务,CART既可以用于分类任务,也适用于回归任务。

先验知识

信息熵

信息熵指所有可能发生的事件的信息量的期望,公式如下
H ( Y ) = − ∑ i = 1 N P ( y i ) l o g P ( y i ) H(Y)=-\sum ^N_{i=1} P(y_i)logP(y_i) H(Y)=i=1NP(yi)logP(yi)

条件熵

条件熵:表示在X给定条件下,Y的条件概率分布的熵对X的数学期望。其数学推导如下
KaTeX parse error: Expected 'EOF', got '&' at position 9: H(Y|X) &̲= \sum_{x\in X}…
条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性

信息增益

信息增益是知道了某个条件后,事件的不确定性下降的程度。写作 g(X,Y)。它的计算方式为熵减去条件熵,公式如下
g i n i ( X , Y ) = H ( Y ) − H ( Y ∣ X ) gini(X,Y)=H(Y)-H(Y|X) gini(X,Y)=H(Y)H(YX)

决策树剪枝

预剪枝

预剪枝是指在决策树生成决策节点之前,先对每个划分结点进行估计,若当前节点的划分不能带来决策树泛化性能的提升,则停止划分并将当前节点标记为叶节点。

预剪枝的要点就在于“决策树泛化性能的提升”,如何判断一棵决策树增加一一个决策节点后泛化性能是否提升,可以通过将训练集划分为两部分,一部分作为训练集,另一部分作为验证集,这种方法叫”留出法“,通过训练集训练决策树,然后在验证集上评估其泛化性能。

后剪枝

后剪枝则是先依据训练集生成一棵完整的决策树,然后自底向上的对非叶子节点进行考察,若将该节点对于的子树替换为叶节点能带来决策树泛化性能的提升,则将该子树替换为叶子节点,否则保留。

离散型数据分类代码

离散型数据使用iris鸢尾花数据集进行测试

    iris = load_iris()X_train, X_test, y_train, y_test = model_selection.train_test_split(iris.data, iris.target, test_size=0.4, random_state=1)model = tree.DecisionTreeClassifier(criterion='gini',splitter='best',max_depth=7)model.fit(X_train,y_train)score = model.score( X_test,y_test)fig, axes = plt.subplots(nrows = 1,ncols = 1,figsize = (4,4), dpi=300)tree.plot_tree(model)fig.savefig('imagename.png')print("score:",score)

运行结果:

score:0.9666666666666667

在这里插入图片描述

连续型数据分类代码

连续型数据使用上次KNN算法的图像数据集进行分类,连续型数据离散化方法使用等宽法

def main():device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")print(device)data_transform = {  # 数据预处理函数# transforms.Compose:将使用的预处理方法打包成一个整体"train": transforms.Compose([transforms.Resize((224, 224)),  # 随机裁剪为224*224像素大小transforms.RandomHorizontalFlip(),  # 水平方向上随机翻转transforms.ToTensor(),# 将原本的取值范围0-255转化为0.1~1.0# 且将原来的序列(H,W,C)转化为(C,H,W)transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]),# 使用均值和标准差对Tensor进行标准化"val": transforms.Compose([transforms.Resize((224, 224)),transforms.ToTensor(),transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])}root_path = os.getcwd()data_path = os.path.abspath(os.path.join(root_path, "data_set"))train_path = os.path.abspath(os.path.join(data_path, "train"))val_path = os.path.abspath(os.path.join(data_path, "val"))model_path = os.path.abspath(os.path.join(root_path, "model"))train_dataset = datasets.ImageFolder(root=train_path, transform=data_transform["train"])train_num = len(train_dataset)date_list = train_dataset.class_to_idx  # 类名对应的索引cla_dict = dict((val, key) for key, val in date_list.items())  # 遍历字典,将key val值返回json_str = json.dumps(cla_dict, indent=4)  # 通过json将cla_dict字典进行编码with open('class.json', 'w') as json_file:json_file.write(json_str)  # ‘class_indices.json’, 将字典的key值保存在文件中,方便在之后的预测中读取它的信息batch_size = 1train_loader = torch.utils.data.DataLoader(train_dataset,batch_size=batch_size, shuffle=True,num_workers=0)validata_dataset = datasets.ImageFolder(root=val_path, transform=data_transform["val"])val_num = len(validata_dataset)validata_loader = torch.utils.data.DataLoader(validata_dataset,batch_size=batch_size, shuffle=False,num_workers=0)data=[]labels=[]K_temp=[]                                              for step, train_data_ in enumerate(train_loader, start=0):train_images, train_labels = train_data_train_images= train_images.reshape(1, 150528)*100data.append(pd.cut(train_images.squeeze().numpy(),5,labels=range(5)))labels.append(train_labels.numpy())X_train, X_test, y_train, y_test = model_selection.train_test_split( data, labels, test_size=0.4, random_state=1model = tree.DecisionTreeClassifier(criterion='gini',splitter='best',max_depth=2)model.fit(X_train,y_train)score = model.score( X_test,y_test)fig, axes = plt.subplots(nrows = 1,ncols = 1,figsize = (4,4), dpi=300)tree.plot_tree(model)fig.savefig('imagename.png')print("score:",score)
if __name__ == "__main__":main()

运行结果:

score:0.6666667

这篇关于决策树实现图像分类(JMU-机器学习作业)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/688018

相关文章

Flutter实现文字镂空效果的详细步骤

《Flutter实现文字镂空效果的详细步骤》:本文主要介绍如何使用Flutter实现文字镂空效果,包括创建基础应用结构、实现自定义绘制器、构建UI界面以及实现颜色选择按钮等步骤,并详细解析了混合模... 目录引言实现原理开始实现步骤1:创建基础应用结构步骤2:创建主屏幕步骤3:实现自定义绘制器步骤4:构建U

SpringBoot中四种AOP实战应用场景及代码实现

《SpringBoot中四种AOP实战应用场景及代码实现》面向切面编程(AOP)是Spring框架的核心功能之一,它通过预编译和运行期动态代理实现程序功能的统一维护,在SpringBoot应用中,AO... 目录引言场景一:日志记录与性能监控业务需求实现方案使用示例扩展:MDC实现请求跟踪场景二:权限控制与

Android实现定时任务的几种方式汇总(附源码)

《Android实现定时任务的几种方式汇总(附源码)》在Android应用中,定时任务(ScheduledTask)的需求几乎无处不在:从定时刷新数据、定时备份、定时推送通知,到夜间静默下载、循环执行... 目录一、项目介绍1. 背景与意义二、相关基础知识与系统约束三、方案一:Handler.postDel

使用Python实现IP地址和端口状态检测与监控

《使用Python实现IP地址和端口状态检测与监控》在网络运维和服务器管理中,IP地址和端口的可用性监控是保障业务连续性的基础需求,本文将带你用Python从零打造一个高可用IP监控系统,感兴趣的小伙... 目录概述:为什么需要IP监控系统使用步骤说明1. 环境准备2. 系统部署3. 核心功能配置系统效果展

Python实现微信自动锁定工具

《Python实现微信自动锁定工具》在数字化办公时代,微信已成为职场沟通的重要工具,但临时离开时忘记锁屏可能导致敏感信息泄露,下面我们就来看看如何使用Python打造一个微信自动锁定工具吧... 目录引言:当微信隐私遇到自动化守护效果展示核心功能全景图技术亮点深度解析1. 无操作检测引擎2. 微信路径智能获

Python中pywin32 常用窗口操作的实现

《Python中pywin32常用窗口操作的实现》本文主要介绍了Python中pywin32常用窗口操作的实现,pywin32主要的作用是供Python开发者快速调用WindowsAPI的一个... 目录获取窗口句柄获取最前端窗口句柄获取指定坐标处的窗口根据窗口的完整标题匹配获取句柄根据窗口的类别匹配获取句

在 Spring Boot 中实现异常处理最佳实践

《在SpringBoot中实现异常处理最佳实践》本文介绍如何在SpringBoot中实现异常处理,涵盖核心概念、实现方法、与先前查询的集成、性能分析、常见问题和最佳实践,感兴趣的朋友一起看看吧... 目录一、Spring Boot 异常处理的背景与核心概念1.1 为什么需要异常处理?1.2 Spring B

Python位移操作和位运算的实现示例

《Python位移操作和位运算的实现示例》本文主要介绍了Python位移操作和位运算的实现示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 位移操作1.1 左移操作 (<<)1.2 右移操作 (>>)注意事项:2. 位运算2.1

如何在 Spring Boot 中实现 FreeMarker 模板

《如何在SpringBoot中实现FreeMarker模板》FreeMarker是一种功能强大、轻量级的模板引擎,用于在Java应用中生成动态文本输出(如HTML、XML、邮件内容等),本文... 目录什么是 FreeMarker 模板?在 Spring Boot 中实现 FreeMarker 模板1. 环

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义