通过weka.jar包来进行数据预处理

2024-06-20 17:08

本文主要是介绍通过weka.jar包来进行数据预处理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

打开eclipse ,在对应的工程下右击,选择Build Path ->选择Configure Build Path  ->选择Libraries  ->点击Add External JARs  ->然后到你的jar包所在路径选择它。即可。

一、特征选择


[java]  view plain copy
print ?
  1. package learning;  
  2.   
  3. import weka.attributeSelection.ASEvaluation;  
  4. import weka.attributeSelection.InfoGainAttributeEval;  
  5. import weka.attributeSelection.Ranker;  
  6. import weka.core.Instances;  
  7. import weka.core.converters.ConverterUtils.DataSink;  
  8. import weka.core.converters.ConverterUtils.DataSource;  
  9. import weka.filters.Filter;  
  10. import weka.filters.supervised.attribute.AttributeSelection;  
  11.   
  12.   
  13. /**feature selection via weka 
  14.  *  
  15.  * @author wenbaoli 
  16.  * 
  17.  */  
  18. public class featureSelect {  
  19.   
  20.     /** 
  21.      *  
  22.      * @param arg 
  23.      */  
  24.     public static void main(String[] arg){  
  25.           
  26.         try {  
  27.   
  28.             System.out.println("++++++++++++Example3:Feature Selection Via Weka.+++++++++");  
  29.               
  30.             System.out.println("Step1:load data...");  
  31.             String fn = "E:/weka/data/iris.arff";  
  32.             DataSource source = new DataSource(fn);  
  33.             Instances instances = source.getDataSet();  
  34.               
  35.             System.out.println("Step2:feature selction...");  
  36.             featureSelect fs = new featureSelect();  
  37.               
  38.             int k = 2;  
  39.             AttributeSelection as = new AttributeSelection();  
  40.               
  41.             Ranker rank = new Ranker();  
  42.             rank.setThreshold(0.0);  
  43.             rank.setNumToSelect(k);  
  44.               
  45.             ASEvaluation ae = new InfoGainAttributeEval();  
  46.           
  47.             as.setEvaluator(ae);  
  48.             as.setSearch(rank);  
  49.             as.setInputFormat(instances);  
  50.             Instances reductData = Filter.useFilter(instances, as);  
  51.               
  52.             System.out.println("Step3:保存规约后的数据到新文件...");  
  53.             DataSink.write("E:/weka/data/iris_reducted.arff", reductData);  
  54.             System.out.println("Finished...");  
  55.               
  56.               
  57.         } catch (Exception e) {  
  58.             e.printStackTrace();  
  59.         }     
  60.     }  
  61.       
  62. }  

二、缺失值处理

[java]  view plain copy
print ?
  1. package learning;  
  2.   
  3. import weka.core.Instances;  
  4. import weka.core.converters.ConverterUtils.DataSink;  
  5. import weka.core.converters.ConverterUtils.DataSource;  
  6.   
  7.   
  8. /**Missing value Handling via weka 
  9.  *  
  10.  * @author wenbaoli 
  11.  * 
  12.  */  
  13. public class missingHandle {  
  14.   
  15.     /** 
  16.      *  
  17.      * @param arg 
  18.      */  
  19.     public static void main(String[] arg) {  
  20.           
  21.         try {  
  22.             System.out.println("+++++++++++++Example 2 :Missing Value Handling.++++++++++++++");  
  23.               
  24.             System.out.println("Step1:load data...");  
  25.               
  26.             String fn = "E:weka/data/labor.arff";  
  27.               
  28.             DataSource source = new DataSource(fn);  
  29.               
  30.             Instances instances = source.getDataSet();  
  31.             int dim = instances.numAttributes();  
  32.             int num = instances.numInstances();  
  33.               
  34.             System.out.println("Step2:缺失值处理...");  
  35.             double[] meanV = new double[dim];  
  36.             for (int i = 0; i < meanV.length; i++) {  
  37.                 meanV[i] = 0;  
  38.                 int count = 0;  
  39.                 for (int j = 0; j < num; j++) {  
  40.                     if(!instances.instance(j).isMissing(i)){  
  41.                         meanV[i] += instances.instance(j).value(i);  
  42.                         count++;  
  43.                     }  
  44.                 }  
  45.                 meanV[i] = meanV[i]/count;  
  46.                 System.out.println(meanV[i]);  
  47.             }  
  48.               
  49.               
  50.             for (int i = 0; i < meanV.length; i++) {  
  51.                 meanV[i] = 0;  
  52.                 int count = 0;  
  53.                 for (int j = 0; j < num; j++) {  
  54.                     if(instances.instance(j).isMissing(i)){  
  55.                         instances.instance(j).setValue(i, meanV[i]);  
  56.                     }  
  57.                 }  
  58.                   
  59.                   
  60.             }  
  61.               
  62.             System.out.println("Step3:保存数据到新文件...");  
  63.               
  64.             DataSink.write("E:weka/data/labor_missingValueHandled.arff", instances);  
  65.             System.out.println("Finished.");  
  66.         } catch (Exception e) {  
  67.             e.printStackTrace();  
  68.         }  
  69.           
  70.           
  71.     }  
  72. }  

三、归一化处理

[java]  view plain copy
print ?
  1. package learning;  
  2.   
  3.   
  4.   
  5. import weka.core.Attribute;  
  6. import weka.core.Instance;  
  7. import weka.core.Instances;  
  8. import weka.core.converters.ConverterUtils.DataSink;  
  9. import weka.core.converters.ConverterUtils.DataSource;  
  10. import weka.filters.Filter;  
  11. import weka.filters.unsupervised.attribute.Normalize;  
  12.   
  13.   
  14. /**normalize data via weka 
  15.  *  
  16.  * @author wenbaoli 
  17.  * 
  18.  */  
  19. public class normalizeTest {  
  20.   
  21.     /** 
  22.      *  
  23.      * @param arg 
  24.      */  
  25.     public static void main(String[] arg) {  
  26.           
  27.           
  28.         String file = "cpu.arff";  
  29.         String file_norm = "norm_" + file;  
  30.         //对数据进行归一化  
  31.         try {  
  32.         System.out.println("+++++++++++++Example 1 : Normalize Data via weka.+++++++++");  
  33.           
  34.         System.out.println("Step1:读取数据...");  
  35.         DataSource source = new DataSource("E:/Weka/data/" + file);  
  36.         Instances instances = source.getDataSet();  
  37.           
  38.         System.out.println("Step2:原数据打印...");  
  39.         System.out.println("---------------------------------");  
  40.         int attributeNo = instances.numAttributes();  
  41.         for (int i = 0; i < attributeNo; i++) {  
  42.             Attribute attr = instances.attribute(i);  
  43.             System.out.print(attr.name() + "\t");  
  44.               
  45.         }  
  46.         System.out.println();  
  47.           
  48.         int instanceNo = instances.numInstances();  
  49.         for (int i = 0; i < instanceNo; i++) {  
  50.             Instance ins = instances.instance(i);  
  51.             System.out.print(ins.toString() + "\t");  
  52.             System.out.println();  
  53.         }  
  54.           
  55.         System.out.println("Step3:归一化...");  
  56.         Normalize norm = new Normalize();  
  57.         norm.setInputFormat(instances);  
  58.           
  59.         //归一化关键步骤:  
  60.         Instances newInstances = Filter.useFilter(instances, norm);  
  61.           
  62.         System.out.println("Step4:归一化之后的数据(打印)...");  
  63.         System.out.println("---------------------------------");  
  64.           
  65.         //打印属性名  
  66.         int numOfAttributes = newInstances.numAttributes();  
  67.         for (int i = 0; i < numOfAttributes; i++) {  
  68.             Attribute attribute = newInstances.attribute(i);  
  69.             System.out.print(attribute.name() + "\t");  
  70.               
  71.         }  
  72.         System.out.println();  
  73.           
  74.         //打印实例  
  75.         int numOfInstance = newInstances.numInstances();  
  76.         for (int i = 0; i < numOfInstance ; i++) {  
  77.             Instance instance = newInstances.instance(i);  
  78.             System.out.print(instance.toString() + "\t");  
  79.             System.out.println();  
  80.         }  
  81.         //发现一个问题:这把标签label也给归一化了。。。。。。。。。。这样可以吗???????  
  82.           
  83.         System.out.println("Step5:保存归一化的新数据到新文件...");  
  84.         System.out.println("-----------------------");  
  85.         DataSink.write("E:/Weka/data/" +file_norm, newInstances);  
  86.         System.out.println("Congratulations.");  
  87.         } catch (Exception e) {  
  88.             e.printStackTrace();  
  89.         }  
  90.           
  91.           
  92.     }  
  93. }  

这篇关于通过weka.jar包来进行数据预处理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1078738

相关文章

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

javacv依赖太大导致jar包也大的解决办法

《javacv依赖太大导致jar包也大的解决办法》随着项目的复杂度和依赖关系的增加,打包后的JAR包可能会变得很大,:本文主要介绍javacv依赖太大导致jar包也大的解决办法,文中通过代码介绍的... 目录前言1.检查依赖2.更改依赖3.检查副依赖总结 前言最近在写项目时,用到了Javacv里的获取视频

Java使用jar命令配置服务器端口的完整指南

《Java使用jar命令配置服务器端口的完整指南》本文将详细介绍如何使用java-jar命令启动应用,并重点讲解如何配置服务器端口,同时提供一个实用的Web工具来简化这一过程,希望对大家有所帮助... 目录1. Java Jar文件简介1.1 什么是Jar文件1.2 创建可执行Jar文件2. 使用java

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本

GSON框架下将百度天气JSON数据转JavaBean

《GSON框架下将百度天气JSON数据转JavaBean》这篇文章主要为大家详细介绍了如何在GSON框架下实现将百度天气JSON数据转JavaBean,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录前言一、百度天气jsON1、请求参数2、返回参数3、属性映射二、GSON属性映射实战1、类对象映

C# LiteDB处理时间序列数据的高性能解决方案

《C#LiteDB处理时间序列数据的高性能解决方案》LiteDB作为.NET生态下的轻量级嵌入式NoSQL数据库,一直是时间序列处理的优选方案,本文将为大家大家简单介绍一下LiteDB处理时间序列数... 目录为什么选择LiteDB处理时间序列数据第一章:LiteDB时间序列数据模型设计1.1 核心设计原则

Java+AI驱动实现PDF文件数据提取与解析

《Java+AI驱动实现PDF文件数据提取与解析》本文将和大家分享一套基于AI的体检报告智能评估方案,详细介绍从PDF上传、内容提取到AI分析、数据存储的全流程自动化实现方法,感兴趣的可以了解下... 目录一、核心流程:从上传到评估的完整链路二、第一步:解析 PDF,提取体检报告内容1. 引入依赖2. 封装

Nginx中配置使用非默认80端口进行服务的完整指南

《Nginx中配置使用非默认80端口进行服务的完整指南》在实际生产环境中,我们经常需要将Nginx配置在其他端口上运行,本文将详细介绍如何在Nginx中配置使用非默认端口进行服务,希望对大家有所帮助... 目录一、为什么需要使用非默认端口二、配置Nginx使用非默认端口的基本方法2.1 修改listen指令