大数据-Hadoop-HDFS(一):数据存储模块(Hadoop Distributed File System,分布式文件系统)【适合一次写入,多次读出的场景】【可以追加数据,但不可修改已有数据】

本文主要是介绍大数据-Hadoop-HDFS(一):数据存储模块(Hadoop Distributed File System,分布式文件系统)【适合一次写入,多次读出的场景】【可以追加数据,但不可修改已有数据】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
在这里插入图片描述
请添加图片描述

一、HDFS概述

1、HDFS产出背景及定义

  • 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。
  • HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
  • HDFS的使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。

2、HDFS优点

  • 高容错性

    1. 数据自动保存多个副本。它通过增加副本的形式,提高容错性。
      在这里插入图片描述
    2. 某一个副本丢失以后,它可以自动恢复。
      在这里插入图片描述
  • 适合处理大数据

    1. 数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据;
    2. 文件规模:能够处理百万规模以上的文件数量,数量相当之大。
  • 可构建在廉价机器上,通过多副本机制,提高可靠性。

3、HDFS缺点

  • 不适合低延时数据访问:HDFS不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。

  • 无法高效的对大量小文件进行存储。

    • 存储大量小文件的话,它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的,因为NameNode的内存总是有限的;
    • 小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。
    • 根本原因: HDFS存储了大量的小文件,会降低NameNode的服务能力!NameNode负责文件元数据(属性,块的映射)的管理,NameNode在运行时,必须将当前集群中存储所有文件的元数据全部加载到内存!NameNode需要大量内存!
    • 举例: 当前运行NN的机器,有64G内存,除去系统开销,分配给NameNode50G内存!
      1. 文件a (1k), 存储到HDFS上,需要将a文件的元数据保存到NameNode,加载到内存。a文件的元数据包括: 文件名 创建时间 所属主 所属组 权限 修改时间+ 块的映射(1块),假设这些元数据大小为150B,则最多存储 50 G 150 B \cfrac{50G}{150B} 150B50G个文件a的元数据信息,能存储的文件a的总大小为: 50 G 150 B × 1 k \cfrac{50G}{150B}×1k 150B50G×1k
      2. 文件b (128M), 存储到HDFS上,需要将b文件的元数据保存到NameNode,加载到内存。b文件的元数据包括: 文件名 创建时间 所属主 所属组 权限 修改时间+块的映射(1块),假设这些元数据大小为150B,则最多存储 50 G 150 B \cfrac{50G}{150B} 150B50G个文件b的元数据信息,能存储的文件b的总大小为: 50 G 150 B × 128 M \cfrac{50G}{150B}×128M 150B50G×128M
  • 不支持并发写入、文件随机修改

    • HDFS不支持对文件的随机写,即仅支持数据append(追加),不支持文件的随机修改!原因: 文件在HDFS上存储时,以block为基本单位存储!
      1. 没有提供对文件的在线寻址(打开)功能;
      2. 文件以块形式存储,修改了一个块中的内容,就会影响当前块之后所有的块,效率低;
    • 同一个文件在同一时刻只能由一个客户端写入!

4、HDFS组成架构

在这里插入图片描述

  • NameNode(nn):就是Master,它是一个主管、管理者。
    1. 管理HDFS的名称空间;
    2. 配置副本策略;
    3. 管理数据块(Block)映射信息;
    4. 处理客户端读写请求。
  • DataNode:就是Slave。NameNode下达命令,DataNode执行实际的操作。
    1. 存储实际的数据块;
    2. 执行数据块的读/写操作。
  • Client:就是客户端。
    1. 文件切分。文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行上传;
    2. 与NameNode交互,获取文件的位置信息;
    3. 与DataNode交互,读取或者写入数据;
    4. Client提供一些命令来管理HDFS,比如NameNode格式化;
    5. Client可以通过一些命令来访问HDFS,比如对HDFS增删查改操作;
  • Secondary NameNode:并非NameNode的热备。当NameNode挂掉的时候,它并不能马上替换NameNode并提供服务。
    1. 辅助NameNode,分担其工作量,比如定期合并Fsimage和Edits,并推送给NameNode ;
    2. 在紧急情况下,可辅助恢复NameNode。

5、HDFS文件块(block)大小

HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在Hadoop2.x版本中是128M,老版本中是64M。

  • 默认块大小为128M,128M指的是块的最大大小!每个块最多存储128M的数据,如果当前块存储的数据不满128M,存了多少数据,就占用多少的磁盘空间!
  • HDFS的文件块(block)的大小设置主要取决于磁盘传输速率。
  • 一个文件块(block)不管大小,只属于一个文件!
    在这里插入图片描述

5.1 文件块(block)大小的计算

  • 默认为128M的原因,基于最佳传输损耗理论!
  • 最佳传输损耗理论:在一次传输中,寻址时间占用总传输时间的1%时,本次传输的损耗最小,为最佳性价比传输!
  • 不论对磁盘的文件进行读还是写,都需要先进行寻址!
  • 目前硬件的发展条件,普通磁盘写的速率大概为100M/S, 寻址时间一般为10ms,传输时间 = 10 m s 1 % = 1 s \cfrac{10ms}{1\%}=1s 1%10ms=1s
  • 所以一个block的大小理论上设置为 100 M / s × 1 s = 100 M 100M/s×1s=100M 100M/s×1s=100M最合适
  • 另一方面,块在传输时,每64K还需要校验一次,因此块大小,必须为2的n次方,最接近100M的就是128M!
  • 如果公司使用的是固态硬盘,写的速度是300M/S,将块大小调整到 256M
  • 如果公司使用的是固态硬盘,写的速度是500M/S,将块大小调整到 512M

5.2 文件块(block)大小要合适

  • 文件块(block)大小不能太大
    • 如果块设置的太大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时,会非常慢。
    • 在上传文件时,一旦发生故障,会造成资源的浪费。
    • 在一些分块读取的场景,不够灵活,会带来额外的网络消耗,比如:当前有文件A(大小为1G),
      1. 如果文件块(block)大小为128M,则文件A存在8块block中。如果只需要读取A文件0-128M部分的内容,需要读取取第一块block,即需要读取128M的内容即可。
      2. 如果文件块(block)大小为1G, 则文件A存在1块block中。只需要读取A文件0-128M部分的内容,需要读取取第一块block,则需要读取1G的内容。
  • 文件块(block)大小不能太小
    • HDFS的块比磁盘的块大,其目的是为了最小化寻址开销;
    • 块设置太小,会增加寻址时间,程序一直在找块的开始位置;比如:文件A(大小为128M)
      1. 如果block的大小为1M,则需要生成128个block,同时在NameNode中要生成128个映射信息与之对应;
      2. 如果block的大小为128M,则需要生成1个block,同时在NameNode中要生成1个映射信息与之对应;
    • 块太小,同样大小的文件,会占用过多的NameNode的元数据空间
    • 块太小,在进行读写操作时,会消耗额外的寻址时间

二、HFDS的Shell操作

1、基本语法

bin/hadoop fs 具体命令   
bin/hdfs dfs 具体命令

dfs是fs的实现类。

2、命令大全

[wyr@hadoop102 hadoop-2.7.2]$ bin/hadoop fs[-appendToFile <localsrc> ... <dst>][-cat [-ignoreCrc] <src> ...][-checksum <src> ...][-chgrp [-R] GROUP PATH...][-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...][-chown [-R] [OWNER][:[GROUP]] PATH...][-copyFromLocal [-f] [-p] <localsrc> ... <dst>][-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... <localdst>][-count [-q] <path> ...][-cp [-f] [-p] <src> ... <dst>][-createSnapshot <snapshotDir> [<snapshotName>]][-deleteSnapshot <snapshotDir> <snapshotName>][-df [-h] [<path> ...]][-du [-s] [-h] <path> ...][-expunge][-get [-p] [-ignoreCrc] [-crc] <src> ... <localdst>][-getfacl [-R] <path>][-getmerge [-nl] <src> <localdst>][-help [cmd ...]][-ls [-d] [-h] [-R] [<path> ...]][-mkdir [-p] <path> ...][-moveFromLocal <localsrc> ... <dst>][-moveToLocal <src> <localdst>][-mv <src> ... <dst>][-put [-f] [-p] <localsrc> ... <dst>][-renameSnapshot <snapshotDir> <oldName> <newName>][-rm [-f] [-r|-R] [-skipTrash] <src> ...][-rmdir [--ignore-fail-on-non-empty] <dir> ...][-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]][-setrep [-R] [-w] <rep> <path> ...][-stat [format] <path> ...][-tail [-f] <file>][-test -[defsz] <path>][-text [-ignoreCrc] <src> ...][-touchz <path> ...][-usage [cmd ...]]

3、常用命令实操

  • 启动Hadoop集群(方便后续的测试)
    [wyr@hadoop102 hadoop-2.7.2]$ sbin/start-dfs.sh
    [wyr@hadoop103 hadoop-2.7.2]$ sbin/start-yarn.sh
    
  • -help:输出这个命令参数
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop fs -help rm
    
  • -ls: 显示目录信息
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop fs -ls /
    
  • -mkdir:在HDFS上创建目录
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop fs -mkdir -p /sanguo/shuguo
    
  • -moveFromLocal:从本地剪切粘贴到HDFS
    [wyr@hadoop102 hadoop-2.7.2]$ touch kongming.txt
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop fs  -moveFromLocal  ./kongming.txt  /sanguo/shuguo
    
  • -appendToFile:追加一个文件到已经存在的文件末尾
    [wyr@hadoop102 hadoop-2.7.2]$ touch liubei.txt
    [wyr@hadoop102 hadoop-2.7.2]$ vi liubei.txt
    输入
    san gu mao lu
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop fs -appendToFile liubei.txt /sanguo/shuguo/kongming.txt
    
  • -cat:显示文件内容
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop fs -cat /sanguo/shuguo/kongming.txt
    
  • -chgrp 、-chmod、-chown:Linux文件系统中的用法一样,修改文件所属权限
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop

这篇关于大数据-Hadoop-HDFS(一):数据存储模块(Hadoop Distributed File System,分布式文件系统)【适合一次写入,多次读出的场景】【可以追加数据,但不可修改已有数据】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1128909

相关文章

使用Java将各种数据写入Excel表格的操作示例

《使用Java将各种数据写入Excel表格的操作示例》在数据处理与管理领域,Excel凭借其强大的功能和广泛的应用,成为了数据存储与展示的重要工具,在Java开发过程中,常常需要将不同类型的数据,本文... 目录前言安装免费Java库1. 写入文本、或数值到 Excel单元格2. 写入数组到 Excel表格

python处理带有时区的日期和时间数据

《python处理带有时区的日期和时间数据》这篇文章主要为大家详细介绍了如何在Python中使用pytz库处理时区信息,包括获取当前UTC时间,转换为特定时区等,有需要的小伙伴可以参考一下... 目录时区基本信息python datetime使用timezonepandas处理时区数据知识延展时区基本信息

Qt实现网络数据解析的方法总结

《Qt实现网络数据解析的方法总结》在Qt中解析网络数据通常涉及接收原始字节流,并将其转换为有意义的应用层数据,这篇文章为大家介绍了详细步骤和示例,感兴趣的小伙伴可以了解下... 目录1. 网络数据接收2. 缓冲区管理(处理粘包/拆包)3. 常见数据格式解析3.1 jsON解析3.2 XML解析3.3 自定义

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

Java Spring 中 @PostConstruct 注解使用原理及常见场景

《JavaSpring中@PostConstruct注解使用原理及常见场景》在JavaSpring中,@PostConstruct注解是一个非常实用的功能,它允许开发者在Spring容器完全初... 目录一、@PostConstruct 注解概述二、@PostConstruct 注解的基本使用2.1 基本代

Pandas统计每行数据中的空值的方法示例

《Pandas统计每行数据中的空值的方法示例》处理缺失数据(NaN值)是一个非常常见的问题,本文主要介绍了Pandas统计每行数据中的空值的方法示例,具有一定的参考价值,感兴趣的可以了解一下... 目录什么是空值?为什么要统计空值?准备工作创建示例数据统计每行空值数量进一步分析www.chinasem.cn处

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

解决Maven项目idea找不到本地仓库jar包问题以及使用mvn install:install-file

《解决Maven项目idea找不到本地仓库jar包问题以及使用mvninstall:install-file》:本文主要介绍解决Maven项目idea找不到本地仓库jar包问题以及使用mvnin... 目录Maven项目idea找不到本地仓库jar包以及使用mvn install:install-file基

Spring 请求之传递 JSON 数据的操作方法

《Spring请求之传递JSON数据的操作方法》JSON就是一种数据格式,有自己的格式和语法,使用文本表示一个对象或数组的信息,因此JSON本质是字符串,主要负责在不同的语言中数据传递和交换,这... 目录jsON 概念JSON 语法JSON 的语法JSON 的两种结构JSON 字符串和 Java 对象互转

C++如何通过Qt反射机制实现数据类序列化

《C++如何通过Qt反射机制实现数据类序列化》在C++工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作,所以本文就来聊聊C++如何通过Qt反射机制实现数据类序列化吧... 目录设计预期设计思路代码实现使用方法在 C++ 工程中经常需要使用数据类,并对数据类进行存储、打印、调试等操作。由于数据类