大数据-Hadoop-HDFS(一):数据存储模块(Hadoop Distributed File System,分布式文件系统)【适合一次写入,多次读出的场景】【可以追加数据,但不可修改已有数据】

本文主要是介绍大数据-Hadoop-HDFS(一):数据存储模块(Hadoop Distributed File System,分布式文件系统)【适合一次写入,多次读出的场景】【可以追加数据,但不可修改已有数据】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
在这里插入图片描述
请添加图片描述

一、HDFS概述

1、HDFS产出背景及定义

  • 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。
  • HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
  • HDFS的使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。

2、HDFS优点

  • 高容错性

    1. 数据自动保存多个副本。它通过增加副本的形式,提高容错性。
      在这里插入图片描述
    2. 某一个副本丢失以后,它可以自动恢复。
      在这里插入图片描述
  • 适合处理大数据

    1. 数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据;
    2. 文件规模:能够处理百万规模以上的文件数量,数量相当之大。
  • 可构建在廉价机器上,通过多副本机制,提高可靠性。

3、HDFS缺点

  • 不适合低延时数据访问:HDFS不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。

  • 无法高效的对大量小文件进行存储。

    • 存储大量小文件的话,它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的,因为NameNode的内存总是有限的;
    • 小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。
    • 根本原因: HDFS存储了大量的小文件,会降低NameNode的服务能力!NameNode负责文件元数据(属性,块的映射)的管理,NameNode在运行时,必须将当前集群中存储所有文件的元数据全部加载到内存!NameNode需要大量内存!
    • 举例: 当前运行NN的机器,有64G内存,除去系统开销,分配给NameNode50G内存!
      1. 文件a (1k), 存储到HDFS上,需要将a文件的元数据保存到NameNode,加载到内存。a文件的元数据包括: 文件名 创建时间 所属主 所属组 权限 修改时间+ 块的映射(1块),假设这些元数据大小为150B,则最多存储 50 G 150 B \cfrac{50G}{150B} 150B50G个文件a的元数据信息,能存储的文件a的总大小为: 50 G 150 B × 1 k \cfrac{50G}{150B}×1k 150B50G×1k
      2. 文件b (128M), 存储到HDFS上,需要将b文件的元数据保存到NameNode,加载到内存。b文件的元数据包括: 文件名 创建时间 所属主 所属组 权限 修改时间+块的映射(1块),假设这些元数据大小为150B,则最多存储 50 G 150 B \cfrac{50G}{150B} 150B50G个文件b的元数据信息,能存储的文件b的总大小为: 50 G 150 B × 128 M \cfrac{50G}{150B}×128M 150B50G×128M
  • 不支持并发写入、文件随机修改

    • HDFS不支持对文件的随机写,即仅支持数据append(追加),不支持文件的随机修改!原因: 文件在HDFS上存储时,以block为基本单位存储!
      1. 没有提供对文件的在线寻址(打开)功能;
      2. 文件以块形式存储,修改了一个块中的内容,就会影响当前块之后所有的块,效率低;
    • 同一个文件在同一时刻只能由一个客户端写入!

4、HDFS组成架构

在这里插入图片描述

  • NameNode(nn):就是Master,它是一个主管、管理者。
    1. 管理HDFS的名称空间;
    2. 配置副本策略;
    3. 管理数据块(Block)映射信息;
    4. 处理客户端读写请求。
  • DataNode:就是Slave。NameNode下达命令,DataNode执行实际的操作。
    1. 存储实际的数据块;
    2. 执行数据块的读/写操作。
  • Client:就是客户端。
    1. 文件切分。文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行上传;
    2. 与NameNode交互,获取文件的位置信息;
    3. 与DataNode交互,读取或者写入数据;
    4. Client提供一些命令来管理HDFS,比如NameNode格式化;
    5. Client可以通过一些命令来访问HDFS,比如对HDFS增删查改操作;
  • Secondary NameNode:并非NameNode的热备。当NameNode挂掉的时候,它并不能马上替换NameNode并提供服务。
    1. 辅助NameNode,分担其工作量,比如定期合并Fsimage和Edits,并推送给NameNode ;
    2. 在紧急情况下,可辅助恢复NameNode。

5、HDFS文件块(block)大小

HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在Hadoop2.x版本中是128M,老版本中是64M。

  • 默认块大小为128M,128M指的是块的最大大小!每个块最多存储128M的数据,如果当前块存储的数据不满128M,存了多少数据,就占用多少的磁盘空间!
  • HDFS的文件块(block)的大小设置主要取决于磁盘传输速率。
  • 一个文件块(block)不管大小,只属于一个文件!
    在这里插入图片描述

5.1 文件块(block)大小的计算

  • 默认为128M的原因,基于最佳传输损耗理论!
  • 最佳传输损耗理论:在一次传输中,寻址时间占用总传输时间的1%时,本次传输的损耗最小,为最佳性价比传输!
  • 不论对磁盘的文件进行读还是写,都需要先进行寻址!
  • 目前硬件的发展条件,普通磁盘写的速率大概为100M/S, 寻址时间一般为10ms,传输时间 = 10 m s 1 % = 1 s \cfrac{10ms}{1\%}=1s 1%10ms=1s
  • 所以一个block的大小理论上设置为 100 M / s × 1 s = 100 M 100M/s×1s=100M 100M/s×1s=100M最合适
  • 另一方面,块在传输时,每64K还需要校验一次,因此块大小,必须为2的n次方,最接近100M的就是128M!
  • 如果公司使用的是固态硬盘,写的速度是300M/S,将块大小调整到 256M
  • 如果公司使用的是固态硬盘,写的速度是500M/S,将块大小调整到 512M

5.2 文件块(block)大小要合适

  • 文件块(block)大小不能太大
    • 如果块设置的太大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时,会非常慢。
    • 在上传文件时,一旦发生故障,会造成资源的浪费。
    • 在一些分块读取的场景,不够灵活,会带来额外的网络消耗,比如:当前有文件A(大小为1G),
      1. 如果文件块(block)大小为128M,则文件A存在8块block中。如果只需要读取A文件0-128M部分的内容,需要读取取第一块block,即需要读取128M的内容即可。
      2. 如果文件块(block)大小为1G, 则文件A存在1块block中。只需要读取A文件0-128M部分的内容,需要读取取第一块block,则需要读取1G的内容。
  • 文件块(block)大小不能太小
    • HDFS的块比磁盘的块大,其目的是为了最小化寻址开销;
    • 块设置太小,会增加寻址时间,程序一直在找块的开始位置;比如:文件A(大小为128M)
      1. 如果block的大小为1M,则需要生成128个block,同时在NameNode中要生成128个映射信息与之对应;
      2. 如果block的大小为128M,则需要生成1个block,同时在NameNode中要生成1个映射信息与之对应;
    • 块太小,同样大小的文件,会占用过多的NameNode的元数据空间
    • 块太小,在进行读写操作时,会消耗额外的寻址时间

二、HFDS的Shell操作

1、基本语法

bin/hadoop fs 具体命令   
bin/hdfs dfs 具体命令

dfs是fs的实现类。

2、命令大全

[wyr@hadoop102 hadoop-2.7.2]$ bin/hadoop fs[-appendToFile <localsrc> ... <dst>][-cat [-ignoreCrc] <src> ...][-checksum <src> ...][-chgrp [-R] GROUP PATH...][-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...][-chown [-R] [OWNER][:[GROUP]] PATH...][-copyFromLocal [-f] [-p] <localsrc> ... <dst>][-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... <localdst>][-count [-q] <path> ...][-cp [-f] [-p] <src> ... <dst>][-createSnapshot <snapshotDir> [<snapshotName>]][-deleteSnapshot <snapshotDir> <snapshotName>][-df [-h] [<path> ...]][-du [-s] [-h] <path> ...][-expunge][-get [-p] [-ignoreCrc] [-crc] <src> ... <localdst>][-getfacl [-R] <path>][-getmerge [-nl] <src> <localdst>][-help [cmd ...]][-ls [-d] [-h] [-R] [<path> ...]][-mkdir [-p] <path> ...][-moveFromLocal <localsrc> ... <dst>][-moveToLocal <src> <localdst>][-mv <src> ... <dst>][-put [-f] [-p] <localsrc> ... <dst>][-renameSnapshot <snapshotDir> <oldName> <newName>][-rm [-f] [-r|-R] [-skipTrash] <src> ...][-rmdir [--ignore-fail-on-non-empty] <dir> ...][-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]][-setrep [-R] [-w] <rep> <path> ...][-stat [format] <path> ...][-tail [-f] <file>][-test -[defsz] <path>][-text [-ignoreCrc] <src> ...][-touchz <path> ...][-usage [cmd ...]]

3、常用命令实操

  • 启动Hadoop集群(方便后续的测试)
    [wyr@hadoop102 hadoop-2.7.2]$ sbin/start-dfs.sh
    [wyr@hadoop103 hadoop-2.7.2]$ sbin/start-yarn.sh
    
  • -help:输出这个命令参数
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop fs -help rm
    
  • -ls: 显示目录信息
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop fs -ls /
    
  • -mkdir:在HDFS上创建目录
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop fs -mkdir -p /sanguo/shuguo
    
  • -moveFromLocal:从本地剪切粘贴到HDFS
    [wyr@hadoop102 hadoop-2.7.2]$ touch kongming.txt
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop fs  -moveFromLocal  ./kongming.txt  /sanguo/shuguo
    
  • -appendToFile:追加一个文件到已经存在的文件末尾
    [wyr@hadoop102 hadoop-2.7.2]$ touch liubei.txt
    [wyr@hadoop102 hadoop-2.7.2]$ vi liubei.txt
    输入
    san gu mao lu
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop fs -appendToFile liubei.txt /sanguo/shuguo/kongming.txt
    
  • -cat:显示文件内容
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop fs -cat /sanguo/shuguo/kongming.txt
    
  • -chgrp 、-chmod、-chown:Linux文件系统中的用法一样,修改文件所属权限
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop

这篇关于大数据-Hadoop-HDFS(一):数据存储模块(Hadoop Distributed File System,分布式文件系统)【适合一次写入,多次读出的场景】【可以追加数据,但不可修改已有数据】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1128909

相关文章

Linux下利用select实现串口数据读取过程

《Linux下利用select实现串口数据读取过程》文章介绍Linux中使用select、poll或epoll实现串口数据读取,通过I/O多路复用机制在数据到达时触发读取,避免持续轮询,示例代码展示设... 目录示例代码(使用select实现)代码解释总结在 linux 系统里,我们可以借助 select、

vue监听属性watch的用法及使用场景详解

《vue监听属性watch的用法及使用场景详解》watch是vue中常用的监听器,它主要用于侦听数据的变化,在数据发生变化的时候执行一些操作,:本文主要介绍vue监听属性watch的用法及使用场景... 目录1. 监听属性 watch2. 常规用法3. 监听对象和route变化4. 使用场景附Watch 的

C#使用iText获取PDF的trailer数据的代码示例

《C#使用iText获取PDF的trailer数据的代码示例》开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了,所... 目录引言iText 核心概念C# 代码示例步骤 1: 确保已安装 iText步骤 2: C# 代码程

Pandas处理缺失数据的方式汇总

《Pandas处理缺失数据的方式汇总》许多教程中的数据与现实世界中的数据有很大不同,现实世界中的数据很少是干净且同质的,本文我们将讨论处理缺失数据的一些常规注意事项,了解Pandas如何表示缺失数据,... 目录缺失数据约定的权衡Pandas 中的缺失数据None 作为哨兵值NaN:缺失的数值数据Panda

C++中处理文本数据char与string的终极对比指南

《C++中处理文本数据char与string的终极对比指南》在C++编程中char和string是两种用于处理字符数据的类型,但它们在使用方式和功能上有显著的不同,:本文主要介绍C++中处理文本数... 目录1. 基本定义与本质2. 内存管理3. 操作与功能4. 性能特点5. 使用场景6. 相互转换核心区别

Java 缓存框架 Caffeine 应用场景解析

《Java缓存框架Caffeine应用场景解析》文章介绍Caffeine作为高性能Java本地缓存框架,基于W-TinyLFU算法,支持异步加载、灵活过期策略、内存安全机制及统计监控,重点解析其... 目录一、Caffeine 简介1. 框架概述1.1 Caffeine的核心优势二、Caffeine 基础2

python库pydantic数据验证和设置管理库的用途

《python库pydantic数据验证和设置管理库的用途》pydantic是一个用于数据验证和设置管理的Python库,它主要利用Python类型注解来定义数据模型的结构和验证规则,本文给大家介绍p... 目录主要特点和用途:Field数值验证参数总结pydantic 是一个让你能够 confidentl

Python函数的基本用法、返回值特性、全局变量修改及异常处理技巧

《Python函数的基本用法、返回值特性、全局变量修改及异常处理技巧》本文将通过实际代码示例,深入讲解Python函数的基本用法、返回值特性、全局变量修改以及异常处理技巧,感兴趣的朋友跟随小编一起看看... 目录一、python函数定义与调用1.1 基本函数定义1.2 函数调用二、函数返回值详解2.1 有返

JAVA实现亿级千万级数据顺序导出的示例代码

《JAVA实现亿级千万级数据顺序导出的示例代码》本文主要介绍了JAVA实现亿级千万级数据顺序导出的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 前提:主要考虑控制内存占用空间,避免出现同时导出,导致主程序OOM问题。实现思路:A.启用线程池

Nginx屏蔽服务器名称与版本信息方式(源码级修改)

《Nginx屏蔽服务器名称与版本信息方式(源码级修改)》本文详解如何通过源码修改Nginx1.25.4,移除Server响应头中的服务类型和版本信息,以增强安全性,需重新配置、编译、安装,升级时需重复... 目录一、背景与目的二、适用版本三、操作步骤修改源码文件四、后续操作提示五、注意事项六、总结一、背景与