通过weka.jar包来进行数据预处理

2024-06-20 17:08

本文主要是介绍通过weka.jar包来进行数据预处理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

打开eclipse ,在对应的工程下右击,选择Build Path ->选择Configure Build Path  ->选择Libraries  ->点击Add External JARs  ->然后到你的jar包所在路径选择它。即可。

一、特征选择


[java]  view plain copy
print ?
  1. package learning;  
  2.   
  3. import weka.attributeSelection.ASEvaluation;  
  4. import weka.attributeSelection.InfoGainAttributeEval;  
  5. import weka.attributeSelection.Ranker;  
  6. import weka.core.Instances;  
  7. import weka.core.converters.ConverterUtils.DataSink;  
  8. import weka.core.converters.ConverterUtils.DataSource;  
  9. import weka.filters.Filter;  
  10. import weka.filters.supervised.attribute.AttributeSelection;  
  11.   
  12.   
  13. /**feature selection via weka 
  14.  *  
  15.  * @author wenbaoli 
  16.  * 
  17.  */  
  18. public class featureSelect {  
  19.   
  20.     /** 
  21.      *  
  22.      * @param arg 
  23.      */  
  24.     public static void main(String[] arg){  
  25.           
  26.         try {  
  27.   
  28.             System.out.println("++++++++++++Example3:Feature Selection Via Weka.+++++++++");  
  29.               
  30.             System.out.println("Step1:load data...");  
  31.             String fn = "E:/weka/data/iris.arff";  
  32.             DataSource source = new DataSource(fn);  
  33.             Instances instances = source.getDataSet();  
  34.               
  35.             System.out.println("Step2:feature selction...");  
  36.             featureSelect fs = new featureSelect();  
  37.               
  38.             int k = 2;  
  39.             AttributeSelection as = new AttributeSelection();  
  40.               
  41.             Ranker rank = new Ranker();  
  42.             rank.setThreshold(0.0);  
  43.             rank.setNumToSelect(k);  
  44.               
  45.             ASEvaluation ae = new InfoGainAttributeEval();  
  46.           
  47.             as.setEvaluator(ae);  
  48.             as.setSearch(rank);  
  49.             as.setInputFormat(instances);  
  50.             Instances reductData = Filter.useFilter(instances, as);  
  51.               
  52.             System.out.println("Step3:保存规约后的数据到新文件...");  
  53.             DataSink.write("E:/weka/data/iris_reducted.arff", reductData);  
  54.             System.out.println("Finished...");  
  55.               
  56.               
  57.         } catch (Exception e) {  
  58.             e.printStackTrace();  
  59.         }     
  60.     }  
  61.       
  62. }  

二、缺失值处理

[java]  view plain copy
print ?
  1. package learning;  
  2.   
  3. import weka.core.Instances;  
  4. import weka.core.converters.ConverterUtils.DataSink;  
  5. import weka.core.converters.ConverterUtils.DataSource;  
  6.   
  7.   
  8. /**Missing value Handling via weka 
  9.  *  
  10.  * @author wenbaoli 
  11.  * 
  12.  */  
  13. public class missingHandle {  
  14.   
  15.     /** 
  16.      *  
  17.      * @param arg 
  18.      */  
  19.     public static void main(String[] arg) {  
  20.           
  21.         try {  
  22.             System.out.println("+++++++++++++Example 2 :Missing Value Handling.++++++++++++++");  
  23.               
  24.             System.out.println("Step1:load data...");  
  25.               
  26.             String fn = "E:weka/data/labor.arff";  
  27.               
  28.             DataSource source = new DataSource(fn);  
  29.               
  30.             Instances instances = source.getDataSet();  
  31.             int dim = instances.numAttributes();  
  32.             int num = instances.numInstances();  
  33.               
  34.             System.out.println("Step2:缺失值处理...");  
  35.             double[] meanV = new double[dim];  
  36.             for (int i = 0; i < meanV.length; i++) {  
  37.                 meanV[i] = 0;  
  38.                 int count = 0;  
  39.                 for (int j = 0; j < num; j++) {  
  40.                     if(!instances.instance(j).isMissing(i)){  
  41.                         meanV[i] += instances.instance(j).value(i);  
  42.                         count++;  
  43.                     }  
  44.                 }  
  45.                 meanV[i] = meanV[i]/count;  
  46.                 System.out.println(meanV[i]);  
  47.             }  
  48.               
  49.               
  50.             for (int i = 0; i < meanV.length; i++) {  
  51.                 meanV[i] = 0;  
  52.                 int count = 0;  
  53.                 for (int j = 0; j < num; j++) {  
  54.                     if(instances.instance(j).isMissing(i)){  
  55.                         instances.instance(j).setValue(i, meanV[i]);  
  56.                     }  
  57.                 }  
  58.                   
  59.                   
  60.             }  
  61.               
  62.             System.out.println("Step3:保存数据到新文件...");  
  63.               
  64.             DataSink.write("E:weka/data/labor_missingValueHandled.arff", instances);  
  65.             System.out.println("Finished.");  
  66.         } catch (Exception e) {  
  67.             e.printStackTrace();  
  68.         }  
  69.           
  70.           
  71.     }  
  72. }  

三、归一化处理

[java]  view plain copy
print ?
  1. package learning;  
  2.   
  3.   
  4.   
  5. import weka.core.Attribute;  
  6. import weka.core.Instance;  
  7. import weka.core.Instances;  
  8. import weka.core.converters.ConverterUtils.DataSink;  
  9. import weka.core.converters.ConverterUtils.DataSource;  
  10. import weka.filters.Filter;  
  11. import weka.filters.unsupervised.attribute.Normalize;  
  12.   
  13.   
  14. /**normalize data via weka 
  15.  *  
  16.  * @author wenbaoli 
  17.  * 
  18.  */  
  19. public class normalizeTest {  
  20.   
  21.     /** 
  22.      *  
  23.      * @param arg 
  24.      */  
  25.     public static void main(String[] arg) {  
  26.           
  27.           
  28.         String file = "cpu.arff";  
  29.         String file_norm = "norm_" + file;  
  30.         //对数据进行归一化  
  31.         try {  
  32.         System.out.println("+++++++++++++Example 1 : Normalize Data via weka.+++++++++");  
  33.           
  34.         System.out.println("Step1:读取数据...");  
  35.         DataSource source = new DataSource("E:/Weka/data/" + file);  
  36.         Instances instances = source.getDataSet();  
  37.           
  38.         System.out.println("Step2:原数据打印...");  
  39.         System.out.println("---------------------------------");  
  40.         int attributeNo = instances.numAttributes();  
  41.         for (int i = 0; i < attributeNo; i++) {  
  42.             Attribute attr = instances.attribute(i);  
  43.             System.out.print(attr.name() + "\t");  
  44.               
  45.         }  
  46.         System.out.println();  
  47.           
  48.         int instanceNo = instances.numInstances();  
  49.         for (int i = 0; i < instanceNo; i++) {  
  50.             Instance ins = instances.instance(i);  
  51.             System.out.print(ins.toString() + "\t");  
  52.             System.out.println();  
  53.         }  
  54.           
  55.         System.out.println("Step3:归一化...");  
  56.         Normalize norm = new Normalize();  
  57.         norm.setInputFormat(instances);  
  58.           
  59.         //归一化关键步骤:  
  60.         Instances newInstances = Filter.useFilter(instances, norm);  
  61.           
  62.         System.out.println("Step4:归一化之后的数据(打印)...");  
  63.         System.out.println("---------------------------------");  
  64.           
  65.         //打印属性名  
  66.         int numOfAttributes = newInstances.numAttributes();  
  67.         for (int i = 0; i < numOfAttributes; i++) {  
  68.             Attribute attribute = newInstances.attribute(i);  
  69.             System.out.print(attribute.name() + "\t");  
  70.               
  71.         }  
  72.         System.out.println();  
  73.           
  74.         //打印实例  
  75.         int numOfInstance = newInstances.numInstances();  
  76.         for (int i = 0; i < numOfInstance ; i++) {  
  77.             Instance instance = newInstances.instance(i);  
  78.             System.out.print(instance.toString() + "\t");  
  79.             System.out.println();  
  80.         }  
  81.         //发现一个问题:这把标签label也给归一化了。。。。。。。。。。这样可以吗???????  
  82.           
  83.         System.out.println("Step5:保存归一化的新数据到新文件...");  
  84.         System.out.println("-----------------------");  
  85.         DataSink.write("E:/Weka/data/" +file_norm, newInstances);  
  86.         System.out.println("Congratulations.");  
  87.         } catch (Exception e) {  
  88.             e.printStackTrace();  
  89.         }  
  90.           
  91.           
  92.     }  
  93. }  

这篇关于通过weka.jar包来进行数据预处理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1078738

相关文章

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

canal实现mysql数据同步的详细过程

《canal实现mysql数据同步的详细过程》:本文主要介绍canal实现mysql数据同步的详细过程,本文通过实例图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的... 目录1、canal下载2、mysql同步用户创建和授权3、canal admin安装和启动4、canal

使用SpringBoot整合Sharding Sphere实现数据脱敏的示例

《使用SpringBoot整合ShardingSphere实现数据脱敏的示例》ApacheShardingSphere数据脱敏模块,通过SQL拦截与改写实现敏感信息加密存储,解决手动处理繁琐及系统改... 目录痛点一:痛点二:脱敏配置Quick Start——Spring 显示配置:1.引入依赖2.创建脱敏

Linux使用scp进行远程目录文件复制的详细步骤和示例

《Linux使用scp进行远程目录文件复制的详细步骤和示例》在Linux系统中,scp(安全复制协议)是一个使用SSH(安全外壳协议)进行文件和目录安全传输的命令,它允许在远程主机之间复制文件和目录,... 目录1. 什么是scp?2. 语法3. 示例示例 1: 复制本地目录到远程主机示例 2: 复制远程主

IDEA如何实现远程断点调试jar包

《IDEA如何实现远程断点调试jar包》:本文主要介绍IDEA如何实现远程断点调试jar包的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录问题步骤总结问题以jar包的形式运行Spring Boot项目时报错,但是在IDEA开发环境javascript下编译

详解如何使用Python构建从数据到文档的自动化工作流

《详解如何使用Python构建从数据到文档的自动化工作流》这篇文章将通过真实工作场景拆解,为大家展示如何用Python构建自动化工作流,让工具代替人力完成这些数字苦力活,感兴趣的小伙伴可以跟随小编一起... 目录一、Excel处理:从数据搬运工到智能分析师二、PDF处理:文档工厂的智能生产线三、邮件自动化:

Java -jar命令如何运行外部依赖JAR包

《Java-jar命令如何运行外部依赖JAR包》在Java应用部署中,java-jar命令是启动可执行JAR包的标准方式,但当应用需要依赖外部JAR文件时,直接使用java-jar会面临类加载困... 目录引言:外部依赖JAR的必要性一、问题本质:类加载机制的限制1. Java -jar的默认行为2. 类加

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

《Python数据分析与可视化的全面指南(从数据清洗到图表呈现)》Python是数据分析与可视化领域中最受欢迎的编程语言之一,凭借其丰富的库和工具,Python能够帮助我们快速处理、分析数据并生成高质... 目录一、数据采集与初步探索二、数据清洗的七种武器1. 缺失值处理策略2. 异常值检测与修正3. 数据

pandas实现数据concat拼接的示例代码

《pandas实现数据concat拼接的示例代码》pandas.concat用于合并DataFrame或Series,本文主要介绍了pandas实现数据concat拼接的示例代码,具有一定的参考价值,... 目录语法示例:使用pandas.concat合并数据默认的concat:参数axis=0,join=

java -jar命令运行 jar包时运行外部依赖jar包的场景分析

《java-jar命令运行jar包时运行外部依赖jar包的场景分析》:本文主要介绍java-jar命令运行jar包时运行外部依赖jar包的场景分析,本文给大家介绍的非常详细,对大家的学习或工作... 目录Java -jar命令运行 jar包时如何运行外部依赖jar包场景:解决:方法一、启动参数添加: -Xb