数据传承:多元环境下的HDFS文件上传与配置调优探索

2024-04-18 00:20

本文主要是介绍数据传承:多元环境下的HDFS文件上传与配置调优探索,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 主要内容
  • 代码1部分
  • 代码2部分
  • 代码3部分


主要内容

完成windows上传文件到hdfs以及linux上传文件(集群中的节点、非集群中的节点)到hdfs文件的功能。尝试在程序中可以通过configuration对象配置分块大小,副本数等属性,观察不同配置文件对程序执行结果的影响。
例如:linux上传/usr/test文件夹的内容到hdfs的/myusr文件夹中。
【选择尝试】输出/myusr/test下的文件内容,输出信息:路径、文件名、所有者、是否是文件,块文件大小和块存储信息


代码1部分

该代码作用是 设置属性+本地文件上传到hdfs的文件中

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;public class testwinhdfs {public static void main(String[] args) throws Exception {Configuration conf = new Configuration();
//根据运行需要设置或不设置属性conf.set("fs.defaultFS", "hdfs://192.168.222.171:9000");System.out.println(conf.get("fs.defaultFS"));conf.set("dfs.replication","1");conf.set("dfs.blocksize","64M");FileSystem fs=FileSystem.get(conf);
//根据运行需要选择正确的文件路径fs.copyFromLocalFile(new Path("/usr/test/wr.txt"),new Path("/user"));fs.close();}
}

代码2部分

代码作用是:创建一些方法,创建目录,子目录,删除目录,修改文件名

import java.util.Arrays;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.BlockLocation;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RemoteIterator;public class localwrdir {
static	Configuration conf;
static	FileSystem fs;
public static void main(String args[]) throws Exception{getinit();//testcreatedir();//testmksubdir();//testdeldir();//testrenamedir();showall();//依次调用其他的方法 //例如:testcreatedir(); 
}public static void getinit() throws Exception{conf = new Configuration();//可以根据访问hdfs的要求设置fs.defaultFSfs = FileSystem.get(conf);}public static void testcreatedir() throws Exception {//创建目录Path p = new Path("E:/dst2");fs.mkdirs(p);fs.close();}public static void testmksubdir()throws Exception{//创建子目录Path p = new Path("E:/dst2/subdir");fs.mkdirs(p);fs.close();}public static void testdeldir()throws Exception{//删除目录及子目录Path p = new Path("E:/dst2");//第二个参数为是否级联(递归)删除,false为否,如果文件夹不为空则抛出异常IOExceptionfs.delete(p,true);fs.close();		}public static void testrenamedir()throws Exception{//修改文件夹名字Path p = new Path("E:/dst1");Path p2 = new Path("E:/mynewfolder");fs.rename(p, p2);}public static void showall()throws Exception{//显示文件元数据信息Path p = new Path("E:/mynewfolder");RemoteIterator<LocatedFileStatus> locatedStatus = fs.listLocatedStatus(p);//使用FileSystem对象的listLocatedStatus方法获取路径p下所有文件的状态迭代器//istFiles(p, true);while(locatedStatus.hasNext()){ //循环遍历所有文件状态LocatedFileStatus next = locatedStatus.next(); //获取下一个文件的状态BlockLocation[] blockLocations = next.getBlockLocations(); // 获取文件的块位置信息long blockSize = next.getBlockSize();//文件块的大小Path path = next.getPath();//文件的路径String name = path.getName();//文件的名称Path suffix = path.suffix("E:/mynewfolder/");String sufstring = suffix.toString();//带有后缀的路径转换为字符串String pathstring = path.toString();//文件路径转换为字符串String groupstr = next.getGroup();//获取文件所属的用户组boolean isfile = next.isFile();//检查当前状态是否为文件String owner = next.getOwner();//获取文件的所有者System.out.println(sufstring+":-------------- "+pathstring+"\t\t"+name+"\t"+owner+"\t"+isfile+"\t"+blockSize/1024/1024+"\t"+Arrays.toString(blockLocations));			}}
}

代码3部分

import java.util.Arrays;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.BlockLocation;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RemoteIterator;public class linuxwrdir {static Configuration conf= new Configuration();static FileSystem fs;public static void main(String[] args) throws Exception {//由于configuration自动加载core-site.xml,hdfs-site.xml因此在linux上执行可以不需要设置URIconf.set("dfs.replication","3");conf.set("dfs.blocksize","64M"); //附加添加设置探究fs= FileSystem.get(conf);//hdfs上创建目录Path p1 = new Path("/myusr/");fs.mkdirs(p1);Path plocal=new Path("/usr/test"); //将linux下的文件夹plocal上传到hdfsfs.copyFromLocalFile(plocal, p1);	     showall();fs.close();}public static void showall()throws Exception{Path p = new Path("/myusr/test/");RemoteIterator<LocatedFileStatus> locatedStatus = fs.listLocatedStatus(p);System.out.println("—————————locatedstatus——————————");while(locatedStatus.hasNext()){LocatedFileStatus next = locatedStatus.next();BlockLocation[] blockLocations = next.getBlockLocations();long blockSize = next.getBlockSize();Path path = next.getPath();String name = path.getName();//Path suffix = path.suffix("/usr/dst/");//String sufstring = suffix.toString();String pathstring = path.toString();String groupstr = next.getGroup();boolean isfile = next.isFile();String owner = next.getOwner();System.out.println(pathstring+"\t"+name+"\t"+owner+"\t"+isfile+"\t"+blockSize/1024/1024+"\t"+Arrays.toString(blockLocations));				}System.out.println("——————————status————");FileStatus[] listStatus = fs.listStatus(p);for (int i = 0; i < listStatus.length; i++) {String filename = listStatus[i].getPath().getName();long len = listStatus[i].getLen();boolean directory = listStatus[i].isDirectory();System.out.println(filename+"\t"+len+"\t"+directory);}}
}

代码打包
在这里插入图片描述

文件下加入文件:(按照要求,创建一些文件或文件夹,最好有超过128M或64M的文件,方便后面查看结果)
在这里插入图片描述

然后就是jar命令运行,和上面一样:
Hadoop jar jar包名 包名.类名
成功后,
打开浏览器
找50070
在这里插入图片描述

找到输出文件路径:
发现文件全部上传,且分块数量和块大小和代码设定一致,探究成功!
在这里插入图片描述
至此,全部完成!

这篇关于数据传承:多元环境下的HDFS文件上传与配置调优探索的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/913275

相关文章

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

Python使用FastAPI实现大文件分片上传与断点续传功能

《Python使用FastAPI实现大文件分片上传与断点续传功能》大文件直传常遇到超时、网络抖动失败、失败后只能重传的问题,分片上传+断点续传可以把大文件拆成若干小块逐个上传,并在中断后从已完成分片继... 目录一、接口设计二、服务端实现(FastAPI)2.1 运行环境2.2 目录结构建议2.3 serv

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

通过Docker容器部署Python环境的全流程

《通过Docker容器部署Python环境的全流程》在现代化开发流程中,Docker因其轻量化、环境隔离和跨平台一致性的特性,已成为部署Python应用的标准工具,本文将详细演示如何通过Docker容... 目录引言一、docker与python的协同优势二、核心步骤详解三、进阶配置技巧四、生产环境最佳实践

Python一次性将指定版本所有包上传PyPI镜像解决方案

《Python一次性将指定版本所有包上传PyPI镜像解决方案》本文主要介绍了一个安全、完整、可离线部署的解决方案,用于一次性准备指定Python版本的所有包,然后导出到内网环境,感兴趣的小伙伴可以跟随... 目录为什么需要这个方案完整解决方案1. 项目目录结构2. 创建智能下载脚本3. 创建包清单生成脚本4

SpringBoot+RustFS 实现文件切片极速上传的实例代码

《SpringBoot+RustFS实现文件切片极速上传的实例代码》本文介绍利用SpringBoot和RustFS构建高性能文件切片上传系统,实现大文件秒传、断点续传和分片上传等功能,具有一定的参考... 目录一、为什么选择 RustFS + SpringBoot?二、环境准备与部署2.1 安装 RustF

mybatis映射器配置小结

《mybatis映射器配置小结》本文详解MyBatis映射器配置,重点讲解字段映射的三种解决方案(别名、自动驼峰映射、resultMap),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定... 目录select中字段的映射问题使用SQL语句中的别名功能使用mapUnderscoreToCame

Linux下MySQL数据库定时备份脚本与Crontab配置教学

《Linux下MySQL数据库定时备份脚本与Crontab配置教学》在生产环境中,数据库是核心资产之一,定期备份数据库可以有效防止意外数据丢失,本文将分享一份MySQL定时备份脚本,并讲解如何通过cr... 目录备份脚本详解脚本功能说明授权与可执行权限使用 Crontab 定时执行编辑 Crontab添加定

Java使用jar命令配置服务器端口的完整指南

《Java使用jar命令配置服务器端口的完整指南》本文将详细介绍如何使用java-jar命令启动应用,并重点讲解如何配置服务器端口,同时提供一个实用的Web工具来简化这一过程,希望对大家有所帮助... 目录1. Java Jar文件简介1.1 什么是Jar文件1.2 创建可执行Jar文件2. 使用java