J48 源码学习| Weka

2024-02-09 03:18
文章标签 源码 学习 weka j48

本文主要是介绍J48 源码学习| Weka,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

J48 C4.5决策树算法源码学习 

TODO: J48 的分类效率分析。

题记: 之前虽然对 J48 用得比较多,是由于它能方便的区别特征的好坏。 工作了,希望自己能更深入, 如是开始了这个算法学习系列。 希望和大家共同进步。
个人对看算法源代码也没有很好的流程,计划先采用 按类Class 做架构介绍;再深入代码具体逻辑的方式展开。 欢迎大家提出好的算法源码阅读流程。
另外,求推荐LR 的比较好的实现代码 ~(^o^)~

一、 准备工作。

下载 weka  的工具包,将 weka.jar 和 weka-src.jar 导入eclipse 项目的依赖包,即可查看 到源码。 
也可以将weka-src.jar 解压,在对应的文件夹下建立一个单独的eclipse 项目,这样可以自己修改代码。

相关论文参考: Ross Quinlan (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, San Mateo, CA.
因为还是对 E文 不友好,个人看了 统计学习方法 的对应章节就算是把理论先过完啦。
熵用来计算随机量的分布不确定性,或者其表达能力。计算公式:

信息增益 Information Gain 又称为 互信息 Multi Information, 体现了新的属性的出现对类别不确定的弱化的能力。计算公式:

信息增益率在分类问题中体现为:特征A对类别C的 信息增益与特征A的熵之比。能在一定程度上修正某个属性ai由于分布很广而Gain更大的影响;但是也可能导致过分修正而选择那些属性分布很窄的项。可以采用两步判别法: 信息增益超过平均值的属性,其次再比较信息增益率。
C4.5 决策树的学习算法:

二、代码流解析:

模型的学习程序从 J48.java 开始。

J48.buildClassifier(ins):  选取 C45 决策树模型为例:

modSelection = new C45ModelSelection(m_minNumObj, instances);
m_root = new C45PruneableClassifierTree(modSelection, !m_unpruned, m_CF,m_subtreeRaising, !m_noCleanup);
m_root.buildClassifier(instances);

将C45Pruneable*.buildClassifier(ins) 继续展开:

		data.deleteWithMissingClass();buildTree(data, m_subtreeRaising || !m_cleanup);collapse();if (m_pruneTheTree) {prune();}if (m_cleanup) {cleanup(new Instances(data, 0));}
 对基类ClassifierTree. buildTree()继续展开:

调用 modSelection.selectModel(ins);

modSelection.split(ins).  // 分割数据

m_sons[i] = getNewTree(localInstances[i]);  // 构建子树

将 C45ModelSelection.selectModel(ins) 继续展开:

			if (Utils.sm(checkDistribution.total(), 2 * m_minNoObj)|| Utils.eq(checkDistribution.total(), checkDistribution.perClass(checkDistribution.maxClass())))return noSplitModel;multiValue = !(attribute.isNumeric() || attribute.numValues() < (0.3 * m_allData.numInstances()));currentModel = new C45Split[data.numAttributes()];sumOfWeights = data.sumOfWeights();// For each attribute.for (i = 0; i < data.numAttributes(); i++) {// Apart from class attribute.if (i != (data).classIndex()) {// Get models for current attribute.currentModel[i] = new C45Split(i, m_minNoObj, sumOfWeights);currentModel[i].buildClassifier(data);// ... 省略代码部分: 更新 averageInfoGain的总和} elsecurrentModel[i] = null;}averageInfoGain = averageInfoGain / (double) validModels;// Find "best" attribute to split on.minResult = 0;for (i = 0; i < data.numAttributes(); i++) {// Use 1E-3 here to get a closer approximation to the original implementation.if ((currentModel[i].infoGain() >= (averageInfoGain - 1E-3))&& Utils.gr(currentModel[i].gainRatio(), minResult)) {bestModel = currentModel[i];

这篇关于J48 源码学习| Weka的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/692977

相关文章

Unity新手入门学习殿堂级知识详细讲解(图文)

《Unity新手入门学习殿堂级知识详细讲解(图文)》Unity是一款跨平台游戏引擎,支持2D/3D及VR/AR开发,核心功能模块包括图形、音频、物理等,通过可视化编辑器与脚本扩展实现开发,项目结构含A... 目录入门概述什么是 UnityUnity引擎基础认知编辑器核心操作Unity 编辑器项目模式分类工程

Python学习笔记之getattr和hasattr用法示例详解

《Python学习笔记之getattr和hasattr用法示例详解》在Python中,hasattr()、getattr()和setattr()是一组内置函数,用于对对象的属性进行操作和查询,这篇文章... 目录1.getattr用法详解1.1 基本作用1.2 示例1.3 原理2.hasattr用法详解2.

Go学习记录之runtime包深入解析

《Go学习记录之runtime包深入解析》Go语言runtime包管理运行时环境,涵盖goroutine调度、内存分配、垃圾回收、类型信息等核心功能,:本文主要介绍Go学习记录之runtime包的... 目录前言:一、runtime包内容学习1、作用:① Goroutine和并发控制:② 垃圾回收:③ 栈和

Android学习总结之Java和kotlin区别超详细分析

《Android学习总结之Java和kotlin区别超详细分析》Java和Kotlin都是用于Android开发的编程语言,它们各自具有独特的特点和优势,:本文主要介绍Android学习总结之Ja... 目录一、空安全机制真题 1:Kotlin 如何解决 Java 的 NullPointerExceptio

8种快速易用的Python Matplotlib数据可视化方法汇总(附源码)

《8种快速易用的PythonMatplotlib数据可视化方法汇总(附源码)》你是否曾经面对一堆复杂的数据,却不知道如何让它们变得直观易懂?别慌,Python的Matplotlib库是你数据可视化的... 目录引言1. 折线图(Line Plot)——趋势分析2. 柱状图(Bar Chart)——对比分析3

重新对Java的类加载器的学习方式

《重新对Java的类加载器的学习方式》:本文主要介绍重新对Java的类加载器的学习方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、介绍1.1、简介1.2、符号引用和直接引用1、符号引用2、直接引用3、符号转直接的过程2、加载流程3、类加载的分类3.1、显示

Android实现一键录屏功能(附源码)

《Android实现一键录屏功能(附源码)》在Android5.0及以上版本,系统提供了MediaProjectionAPI,允许应用在用户授权下录制屏幕内容并输出到视频文件,所以本文将基于此实现一个... 目录一、项目介绍二、相关技术与原理三、系统权限与用户授权四、项目架构与流程五、环境配置与依赖六、完整

Android实现定时任务的几种方式汇总(附源码)

《Android实现定时任务的几种方式汇总(附源码)》在Android应用中,定时任务(ScheduledTask)的需求几乎无处不在:从定时刷新数据、定时备份、定时推送通知,到夜间静默下载、循环执行... 目录一、项目介绍1. 背景与意义二、相关基础知识与系统约束三、方案一:Handler.postDel

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》:本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter(过滤器)1. Filter 的工作原理2. Filter 的配置与使用二、Listen

Java 正则表达式URL 匹配与源码全解析

《Java正则表达式URL匹配与源码全解析》在Web应用开发中,我们经常需要对URL进行格式验证,今天我们结合Java的Pattern和Matcher类,深入理解正则表达式在实际应用中... 目录1.正则表达式分解:2. 添加域名匹配 (2)3. 添加路径和查询参数匹配 (3) 4. 最终优化版本5.设计思