记一次深刻的教训-----将mat数据转化为SequenceFile

2023-11-07 04:10

本文主要是介绍记一次深刻的教训-----将mat数据转化为SequenceFile,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

深刻的体会就是,“java.lang.NullPointer.Exception”就是空指针异常可能是由于数组部分元素未被初始化引起的。

1)使用jmatio将mat数据转化为SequenceFile形式的数据,代码如下:

 1 /**
 2  * Created with IntelliJ IDEA.
 3  * User: hadoop
 4  * Date: 16-3-6
 5  * Time: 上午10:56
 6  * To change this template use File | Settings | File Templates.
 7  */
 8 import com.jmatio.io.MatFileReader;
 9 import com.jmatio.types.*;
10 import java.io.IOException;
11 import org.apache.hadoop.conf.Configuration;
12 import org.apache.hadoop.fs.FileSystem;
13 import org.apache.hadoop.fs.Path;
14 import org.apache.hadoop.io.*;
15 import java.net.URI;
16 import org.apache.hadoop.mapreduce.*;
17 public class mat2Seq {
18 public static void main(String[] args) throws IOException {
19     writeMat2Seq("data/100_100/F100.mat","SeqOutput/F");
20     writeMat2Seq("data/100_100/b100.mat","SeqOutput/b");
21     writeMat2Seq("data/100_100/d100.mat","SeqOutput/d");
22     writeMat2Seq("data/100_100/s100.mat","SeqOutput/s");
23     writeMat2Seq("data/100_100/u100.mat","SeqOutput/u");
24 }
25 
26 public static void writeMat2Seq(String matPath,String SeqOutput) throws IOException {
27         MatFileReader reader=new MatFileReader(matPath);
28         MLArray mlArray=reader.getMLArray("a");
29         MLDouble doubleValue=(MLDouble)mlArray;
30         double[][] matrix=doubleValue.getArray();
31         Configuration conf =new Configuration();
32         FileSystem fs=FileSystem.get(URI.create(SeqOutput),conf);
33         IntWritable key=new IntWritable();
34         DoubleArrayWritable value=new DoubleArrayWritable();
35         SequenceFile.Writer writer=null;
36         try {
37             writer=SequenceFile.createWriter(fs,conf,new Path(SeqOutput),key.getClass(),
38                     value.getClass());
39             if (matPath.endsWith("F100.mat")){    //左矩阵F依次将行存储到Seq
40                 DoubleWritable[] rowVector=new DoubleWritable[matrix.length];
41                 for (int i=0;i<matrix.length;++i){
42                     for (int j=0;j<matrix[0].length;++j){
43                        rowVector[j]=new DoubleWritable(0);
44                        rowVector[j].set(matrix[i][j]);
45                     }
46                     value.set(rowVector);
47                     key.set(i);
48                     writer.append(key,value);
49                 }
50                 writer.close();
51             }
52             else{          //其他右矩阵依次将列存储到Seq中
53                 DoubleWritable[] columnVector=new DoubleWritable[matrix[0].length];
54                 for (int i=0;i<matrix[0].length;++i){
55                     for (int j=0;j<matrix.length;++j){
56                         columnVector[j]=new DoubleWritable(0);
57                         columnVector[j].set(matrix[j][i]);
58                     }
59                     value.set(columnVector);
60                     key.set(i);
61                     writer.append(key,value);
62                 }
63                 writer.close();
64 
65             }
66         }
67         finally {
68         }
69     System.out.println(matPath+"write done!");
70     }
71 }
72 class DoubleArrayWritable extends ArrayWritable {
73     public DoubleArrayWritable(){
74         super(DoubleWritable.class);
75     }
76     public String toString(){
77         StringBuilder sb=new StringBuilder();
78         for (Writable val:get()){
79             DoubleWritable doubleWritable=(DoubleWritable)val;
80             sb.append(doubleWritable.get());
81             sb.append(",");
82         }
83         sb.deleteCharAt(sb.length()-1);
84         return sb.toString();
85     }
86 }

 

以上使用的.mat文件,程序都可以好好的运行。但是当把文件换成一个B1k2k,也就是一个1000*2000的矩阵文件时,就报空指针的异常,“java.lang.NullPointerException”,具体如下:

 

 提示是在ArrayWritable.write()方法中出现空指针的异常,就开始怀疑是ArrayWritable这个类没写好(也就是怀疑人家有bug,然后就下了hadoop2.6.4,还是不行),然后一路追查,到最后ArrayWritable的write()方法最终调用了BufferedOutputStream.write(),然后就开始是open-jdk的不兼容了,然后就重装了sun JDK。还是不行,然后就把java的io包里的.java源码拷贝到工程里,想着单步调试到BufferedOutputStream.write(),看看究竟发生了什么,怎奈jmatio需要用到io包,我又不行重新编译,所以就想先把.mat转化为.txt文件,但是呢,没成功,因为虚拟机磁盘空间不够了,没法了,想想是不是机子环境的问题呢(哈哈哈,想象力太好),就传给谷总试试看能不能运行,谷总说你确定不是算法问题?答:不该呀。呵呵呵,结果谷总发来了两张图片,如下:

 

 

至此,终于找到了原因,就是代码有问题。columnVector数组是用来存储矩阵的一列,数组长度矩阵的行数,但是原先的代码里却将数组长度定义为矩阵的列数。

 DoubleWritable[] columnVector=new DoubleWritable[matrix[0].length];for (int i=0;i<matrix[0].length;++i){for (int j=0;j<matrix.length;++j){columnVector[j]=new DoubleWritable(0);columnVector[j].set(matrix[j][i]);
}
value.set(columnVector);
key.set(i);
writer.append(key,value);
}

这就解释了,为什么1k*1100的矩阵转化时会提示空指针异常,按照上述对columnVector的定义,这个列向量数组的长度是1100,但是在接下来给这个向量赋值时,是由矩阵的行数来控制,也就是说在赋值时只是对columnVector复制到第1000个元素,剩下的100个元素是空(如果是系统的基本类型,如int double,编译器会将其置为0,不过DoubleWritable不是基本类型),也就是“null”,所以在接下来使用writer.append(key,vlaue)调用输出流写出的时候,自然会抛出“java.lang.NullPointerException”异常。经过修改的代码如下:

 1 /**
 2  * Created with IntelliJ IDEA.
 3  * User: hadoop
 4  * Date: 16-3-6
 5  * Time: 上午10:56
 6  * To change this template use File | Settings | File Templates.
 7  */
 8 //package java.io;
 9 import com.jmatio.io.MatFileReader;
10 import com.jmatio.types.*;
11 import java.io.IOException;
12 import org.apache.hadoop.conf.Configuration;
13 import org.apache.hadoop.fs.FileSystem;
14 import org.apache.hadoop.fs.Path;
15 import org.apache.hadoop.io.*;
16 public class mat2Seq {
17     public static void main(String[] args) throws IOException {
18         writeMat2Seq("data/1k_1k/F1k1k.mat","SeqOutput/F1k1k");
19         writeMat2Seq("data/100_100/b100.mat","SeqOutput/b100");
20         writeMat2Seq("data/1k1100/mat1k1100.mat","SeqOutput/test1k1100");
21         writeMat2Seq("data/B1k2w.mat","SeqOutput/1k2w");
22 
23         //writeMat2Seq("data/1k_2w/B1k2w.mat","SeqOutput5/B1k2w");
24     }
25 
26     public static void writeMat2Seq(String matPath,String SeqOutput) throws IOException {
27         MatFileReader reader=new MatFileReader(matPath);
28         MLArray mlArray=reader.getMLArray("a");
29         MLDouble doubleValue=(MLDouble)mlArray;
30         double[][] matrix=doubleValue.getArray();
31         Configuration conf =new Configuration();
32         //FileSystem fs=FileSystem.get(URI.create(SeqOutput),conf);
33         FileSystem fs=FileSystem.get(conf);
34         Path path=new Path(SeqOutput);
35         //FSDataOutputStream outputStream=fs.create(path);
36         IntWritable key=new IntWritable();
37         DoubleArrayWritable value=new DoubleArrayWritable();
38         SequenceFile.Writer writer=null;
39         try {
40             writer=SequenceFile.createWriter(fs,conf,path,key.getClass(),value.getClass());
41 
42             // SequenceFile.Writer.Option
43             if (matPath.endsWith("F1k.mat")){    //左矩阵F依次将行存储到Seq
44                 DoubleWritable[] rowVector=new DoubleWritable[matrix[0].length];
45                 for (int i=0;i<matrix.length;++i){
46                     for (int j=0;j<matrix[0].length;++j){
47                         rowVector[j]=new DoubleWritable(0);
48                         rowVector[j].set(matrix[i][j]);
49                     }
50                     value.set(rowVector);
51                     key.set(i);
52                     writer.append(key,value);
53                 }
54                 writer.close();
55                 //outputStream.close();
56                 fs.close();
57             }
58             else{          //其他右矩阵依次将列存储到Seq中
59                 //DoubleWritable[] columnVector=new DoubleWritable[matrix[0].length];
60                 DoubleWritable[] columnVector=new DoubleWritable[matrix.length];
61                 for (int i=0;i<matrix[0].length;++i){
62                     for (int j=0;j<matrix.length;++j){
63                         columnVector[j]=new DoubleWritable(0);
64                         columnVector[j].set(matrix[j][i]);
65                     }
66                     value.set(columnVector);
67                     key.set(i);
68                     writer.append(key,value);
69                 }
70                 writer.close();
71                 //outputStream.close();
72                 fs.close();
73 
74             }
75         }
76         finally {
77         }
78         System.out.println(matPath+"write done!");
79     }
80 }
81 class DoubleArrayWritable extends ArrayWritable {
82     public DoubleArrayWritable(){
83         super(DoubleWritable.class);
84     }
85     /*
86     public String toString(){
87         StringBuilder sb=new StringBuilder();
88         for (Writable val:get()){
89             DoubleWritable doubleWritable=(DoubleWritable)val;
90             sb.append(doubleWritable.get());
91             sb.append(",");
92         }
93         sb.deleteCharAt(sb.length()-1);
94         return sb.toString();
95     }
96     */
97 }

 另外,就是把DoubleArrayWritable的toString()方法注释掉是有原因的,如果使用这个新定义的toString()方法,写入SequenceFile中的value形式就是0.344,0.435......,这种矩阵形式(使用hadoop fs -text),形式一目了然,但是文件写入速度慢(B1k2w文件需要两分钟才可以完成)。如果使用Object提供的toString()方法的话,写入的value形式就是DoubleArrayWritable@34d79f形式,看着不直观,如果要查看value的值还必须使用程序反序列化,但是这种方法写入的内容很少,文件的写入速度很快(B1k2w文件只需要1~2s就可完成)。所以还是不要重载toString()方法。

转载于:https://www.cnblogs.com/lz3018/p/5247101.html

这篇关于记一次深刻的教训-----将mat数据转化为SequenceFile的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/361159

相关文章

MySQL数据目录迁移的完整过程

《MySQL数据目录迁移的完整过程》文章详细介绍了将MySQL数据目录迁移到新硬盘的整个过程,包括新硬盘挂载、创建新的数据目录、迁移数据(推荐使用两遍rsync方案)、修改MySQL配置文件和重启验证... 目录1,新硬盘挂载(如果有的话)2,创建新的 mysql 数据目录3,迁移 MySQL 数据(推荐两

Python数据验证神器Pydantic库的使用和实践中的避坑指南

《Python数据验证神器Pydantic库的使用和实践中的避坑指南》Pydantic是一个用于数据验证和设置的库,可以显著简化API接口开发,文章通过一个实际案例,展示了Pydantic如何在生产环... 目录1️⃣ 崩溃时刻:当你的API接口又双叒崩了!2️⃣ 神兵天降:3行代码解决验证难题3️⃣ 深度

MySQL快速复制一张表的四种核心方法(包括表结构和数据)

《MySQL快速复制一张表的四种核心方法(包括表结构和数据)》本文详细介绍了四种复制MySQL表(结构+数据)的方法,并对每种方法进行了对比分析,适用于不同场景和数据量的复制需求,特别是针对超大表(1... 目录一、mysql 复制表(结构+数据)的 4 种核心方法(面试结构化回答)方法 1:CREATE

详解C++ 存储二进制数据容器的几种方法

《详解C++存储二进制数据容器的几种方法》本文主要介绍了详解C++存储二进制数据容器,包括std::vector、std::array、std::string、std::bitset和std::ve... 目录1.std::vector<uint8_t>(最常用)特点:适用场景:示例:2.std::arra

MySQL中的DELETE删除数据及注意事项

《MySQL中的DELETE删除数据及注意事项》MySQL的DELETE语句是数据库操作中不可或缺的一部分,通过合理使用索引、批量删除、避免全表删除、使用TRUNCATE、使用ORDERBY和LIMI... 目录1. 基本语法单表删除2. 高级用法使用子查询删除删除多表3. 性能优化策略使用索引批量删除避免

MySQL 数据库进阶之SQL 数据操作与子查询操作大全

《MySQL数据库进阶之SQL数据操作与子查询操作大全》本文详细介绍了SQL中的子查询、数据添加(INSERT)、数据修改(UPDATE)和数据删除(DELETE、TRUNCATE、DROP)操作... 目录一、子查询:嵌套在查询中的查询1.1 子查询的基本语法1.2 子查询的实战示例二、数据添加:INSE

Linux服务器数据盘移除并重新挂载的全过程

《Linux服务器数据盘移除并重新挂载的全过程》:本文主要介绍在Linux服务器上移除并重新挂载数据盘的整个过程,分为三大步:卸载文件系统、分离磁盘和重新挂载,每一步都有详细的步骤和注意事项,确保... 目录引言第一步:卸载文件系统第二步:分离磁盘第三步:重新挂载引言在 linux 服务器上移除并重新挂p

使用MyBatis TypeHandler实现数据加密与解密的具体方案

《使用MyBatisTypeHandler实现数据加密与解密的具体方案》在我们日常的开发工作中,经常会遇到一些敏感数据需要存储,比如用户的手机号、身份证号、银行卡号等,为了保障数据安全,我们通常会对... 目录1. 核心概念:什么是 TypeHandler?2. 实战场景3. 代码实现步骤步骤 1:定义 E

使用C#导出Excel数据并保存多种格式的完整示例

《使用C#导出Excel数据并保存多种格式的完整示例》在现代企业信息化管理中,Excel已经成为最常用的数据存储和分析工具,从员工信息表、销售数据报表到财务分析表,几乎所有部门都离不开Excel,本文... 目录引言1. 安装 Spire.XLS2. 创建工作簿和填充数据3. 保存为不同格式4. 效果展示5

Python多任务爬虫实现爬取图片和GDP数据

《Python多任务爬虫实现爬取图片和GDP数据》本文主要介绍了基于FastAPI开发Web站点的方法,包括搭建Web服务器、处理图片资源、实现多任务爬虫和数据可视化,同时,还简要介绍了Python爬... 目录一. 基于FastAPI之Web站点开发1. 基于FastAPI搭建Web服务器2. Web服务